- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
62_一个面向信息抽取的中英文平行语料库
一个面向信息抽取的中英文平行语料库
1,2 1,2 1,2 1,2
惠浩添 ,李云建 ,钱龙华 ,周国栋
(1.苏州大学 自然语言处理实验室,江苏 苏州 215006 ;
2.苏州大学计算机科学与技术学院,江苏 苏州 215006 )
摘要:除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的
平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,本文以OntoNotes 中英
文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量
中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对
齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信
息抽取的研究提供了一个有价值的平台。
关键字:命名实体;语义关系;双语映射;平行语料库
中图分类号:TP391 文献标识码:A
A Chinese-English Parallel Corpus for Information Extraction
HUI Haotian1,2, LI Yunjian1,2, QIAN Longhua1,2, ZHOU Guodong1,2
(1.Natural Language Processing Lab of Soochow University, Suzhou, Jiangsu 215006, China;
2.School of Computer Science Technology, Soochow University, Suzhou, Jiangsu 215006, China)
Abstract: In addition to machine translation, parallel corpora play an important role in information
retrieval, information extraction and knowledge acquisition etc. However, traditional parallel
corpora are aligned at sentence level, thus their significance for research on cross-language natural
language processing is limited. In view of this, this paper, on the basis of the OntoNotes, constructs
a high quality Chinese and English parallel corpus for information extraction by combining automatic
extraction, automatic mapping and manual annotation. The corpus contains the entities and their mutual
relations, and achieves the alignment between Chinese and English on entity and relation level.
Therefore, this corpus will facilitate comparative study of information extraction in Chinese and
English, reveal the difference of semantic expression between languages, and also provide a valuable
platform for research on cross-language relation extraction .
Key Words: Named Entity; Semantic Relation; Bilingual Mapping; Parallel Corpus
1 引言
信息抽取是
您可能关注的文档
- 《重庆森林》电影对白(下).doc
- 《中国读本.014·中国古代造船与航海》作者:金秋鹏.pdf
- 《中国社会经济史研究·明清东南区域的平原与山区的经济专辑》.pdf
- 【出国购物用餐英语完全手册】.doc
- 【东方着名哲学家评传】越南卷、犹太卷.pdf
- 【哈佛商学经典译丛】服务利润链.pdf
- 【弘仁ipo资讯】2013年第一批保荐代表人培训主要内容整理稿-并购专题 .pdf
- 【欧洲大陆哲学系列】尼采的哲学.pdf
- 【牛津手册系列】维特根斯坦.pdf
- 【尚友制造】北美商学院就业大揭密系列----university of oklahoma.pdf
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(轻巧夺冠).docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(预热题)word版.docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(考点精练).docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(达标题).docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(考点精练).docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(综合卷).docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(精练).docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(网校专用)word版.docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(考试直接用).docx
- 六年级下册道德与法治第二单元《爱护地球 共同责任》测试卷(精品)word版.docx
文档评论(0)