网站大量收购闲置独家精品文档,联系QQ:2885784924

62_一个面向信息抽取的中英文平行语料库.pdf

62_一个面向信息抽取的中英文平行语料库.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
62_一个面向信息抽取的中英文平行语料库

一个面向信息抽取的中英文平行语料库 1,2 1,2 1,2 1,2 惠浩添 ,李云建 ,钱龙华 ,周国栋 (1.苏州大学 自然语言处理实验室,江苏 苏州 215006 ; 2.苏州大学计算机科学与技术学院,江苏 苏州 215006 ) 摘要:除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的 平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,本文以OntoNotes 中英 文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量 中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对 齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信 息抽取的研究提供了一个有价值的平台。 关键字:命名实体;语义关系;双语映射;平行语料库 中图分类号:TP391 文献标识码:A A Chinese-English Parallel Corpus for Information Extraction HUI Haotian1,2, LI Yunjian1,2, QIAN Longhua1,2, ZHOU Guodong1,2 (1.Natural Language Processing Lab of Soochow University, Suzhou, Jiangsu 215006, China; 2.School of Computer Science Technology, Soochow University, Suzhou, Jiangsu 215006, China) Abstract: In addition to machine translation, parallel corpora play an important role in information retrieval, information extraction and knowledge acquisition etc. However, traditional parallel corpora are aligned at sentence level, thus their significance for research on cross-language natural language processing is limited. In view of this, this paper, on the basis of the OntoNotes, constructs a high quality Chinese and English parallel corpus for information extraction by combining automatic extraction, automatic mapping and manual annotation. The corpus contains the entities and their mutual relations, and achieves the alignment between Chinese and English on entity and relation level. Therefore, this corpus will facilitate comparative study of information extraction in Chinese and English, reveal the difference of semantic expression between languages, and also provide a valuable platform for research on cross-language relation extraction . Key Words: Named Entity; Semantic Relation; Bilingual Mapping; Parallel Corpus 1 引言 信息抽取是

您可能关注的文档

文档评论(0)

maxmin + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档