- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
跨语言实体关系抽取研究中文摘要
跨语言实体关系抽取研究
中文摘要
I
I
跨语言实体关系抽取研究
中文摘要
语料库的数量和质量对基于机器学习的命名实体间语义关系抽取的性能具有重 要的影响,而语料库的人工标注是一项十分耗时又费力的工作。另一方面,多语言语 料库的出现以及机器翻译技术的发展,为研究多种语言之间的一致性和互补性提供了 良好的契机。本文提出了三种跨语言关系抽取的方法,旨在提高多语言关系抽取性能 的同时降低对语料库标注量的需求。研究内容包括以下三个方面:
1)基于机器翻译的跨语言关系抽取。首先利用机器翻译产生翻译语料,然后进 行实体对齐,最后直接将映射后的关系实例添加到目标语言训练集中,帮助目标语言 进行关系抽取;
2)基于双语协同训练的关系分类。给定小规模标注语料和大规模未标注语料, 以自举的方式将一种语言中可靠分类的关系实例所对应的翻译实例添加到另一种语 言的训练语料库中。两种语言上的关系分类互相帮助,共同提高;
3)基于双语主动学习的关系分类。将主动学习方法应用到中英文双语关系分类 中,在挑选信息量最丰富的未标注实例时,使用联合置信度来综合考虑一个实例在两 种语言中的分类置信度。
在 ACE 2005 中/英文语料库上的关系抽取实验表明,无论以何种方式使用翻译语 料,一种语言中人工标注和自动标注的关系实例对另一种语言的关系抽取都具有一致 且稳定的帮助作用,并且当训练语料规模较小时,这种帮助就尤为显著。
关键词:实体关系抽取,机器翻译,实体对齐,协同训练,主动学习
作者:胡亚楠
指导老师:钱龙华
Abs
Abstract
Research on Cross-lingual Relation Extraction between Named Entities
Research on Cross-lingual Relation Extraction between Named Entities
Abstract
The quantity and quality of training corpora have an important impact on the performance of machine learning-based semantic relation extraction between named entities, however, the annotation of corpora is time-consuming and labor-intensive. Meanwhile, the emergence of multi-language corpora and the development of machine translation technology provide a good opportunity for the research on redundancy and complementariness between languages. This paper proposes three approaches for cross-lingual relation extraction, aiming at improving multilingual relation extraction performance as well as reducing the amount of needed labeled corpora. The study includes three aspects as follows:
Cross-lingual relation extraction via machine translation. First, we obtain translated corpora via machine translation, then perform entity alignment, and finally add these mapped translated instances into the training corpus of the target language to help its relation extraction.
Bilingual co-training for relation classification. Given a small number of labeled instances and a large number of unlabeled instances in two languages, translated instances which correspond to reliably
您可能关注的文档
- 流动儿童的文化认同状况及其心理健康状况的调查与研究-课程与教学论(思政)专业论文.docx
- 论我国企业债券风险管理的完善-国民经济学专业论文.docx
- 跨界河流水污染应急决策支持系统研究-环境科学与工程专业论文.docx
- 辽宁省软件产业发展政策研究-公共管理专业论文.docx
- 跨平台移动数据业务的运营管理模式研究-产业经济学专业论文.docx
- 老年代步车结构设计及仿真优化-车辆工程专业论文.docx
- 流动注射在线多步置换吸附预富集与原子吸收光谱联用新技术及其在痕量元素(形态)研究中的应用-化学、分析化学专业论文.docx
- 利用侵染性cDNA研究甜菜坏死黄脉病毒RNA5与病毒致病性的关系-生物化学与分子生物学专业论文.docx
- 雷贝拉唑中间体的合成研究-化学工程专业论文.docx
- 山大鲁能集中抄表系统市场营销策略研究-工商管理专业论文.docx
- 类型化低级语言的设计与实现-计算机软件与理论专业论文.docx
- 跨文化企业跨文化管理问题分析-工商管理(MBA)专业论文.docx
- 论我国金融刑法的立法完善-刑法学专业论文.docx
- 山岳型景区游客换乘中心建筑与长途汽车客运建筑交通空间设计对比研究-建筑设计及其理论专业论文.docx
- 论国有企业企业文化的创新-马克思主义理论与思想政治教育专业论文.docx
- 论“扩大中等收入者比重”-政治经济学专业论文.docx
- 论外商直接投资与中国对外贸易绩效-世界经济专业论文.docx
- 论公司中小股东的法律保护-经济法学专业论文.docx
- 快速以太网中数字自适应均衡器的设计与芯片实现-通信与信息系统专业论文.docx
- 宽带CDMA与GSM同频传输及其关键技术研究-通信与信息系统专业论文.docx
文档评论(0)