基于自学习的汉语开放域命名实体边界识别.docVIP

下载本文档

0
0
约6.74千字
约 9页
2016-09-12 发布于北京
举报
版权申诉

基于自学习的汉语开放域命名实体边界识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于自学习的汉语开放域命名实体边界识别.doc

基于自学习的汉语开放域命名实体边界识别　　摘要：命名实体识别是自然语言处理领域的一个重要任务，为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料，而人工标注语料的代价又太大，本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料，另外基于汉语依存树库生成了一个名词复合短语语料，然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料，同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。　　关键词：开放域命名实体识别；自学习；训练语料融合　　中图分类号：TP391.12 文献标识码：A文章编号：2095-2163（2014）04-0001-05 　　Abstract：Named entity recognition is an important task in the domain of Natural Language Processing， which plays an important role in many applications. This paper focuses on the boundary identification of Chinese open-domain named entities. Because the shortage of training data and the huge cost of manual annotation， the paper proposes a self-training approach to identify the boundaries of Chinese open-domain named entities in context. Due to the lack of training data， the paper firstly generates a large scale Chinese proper noun corpus based on parallel corpora， and also transforms a Chinese dependency tree bank to a noun compound training corpus. Subsequently， the paper proposes a self-training-based approach to combine the two corpora and train a model to identify boundaries of named entities. The experiments show the proposed method can take full advantage of the two corpora and improve the performance of named entity boundary identification. 　　Key words：Open-domain Named Entity Recognition； Self-training； Training Corpus Combination 　　0引言　　命名实体是文本中承载信息的重要语言单位，命名实体的识别和分类在信息抽取、开放域问答、信息检索以及机器翻译等领域都占有非常重要的地位。输入自然语言文本，命名实体识别的任务在于将其中事物的名称标记出来并给予适当的语义类别。传统命名实体由于类别有限，并不能满足自然语言处理领域上层任务的全部需求，因此本文专注于开放域命名实体边界的识别的研究。　　传统命名实体识别的主流方法是统计机器学习方法，使用标注好的训练集训练模型，然后用训练好的模型来进行命名实体的识别，并且大多数采用序列标注的方法，可以一次性将边界和类别都标出。但对于开放域命名实体来说，由于涉及的领域非常多，类型多且无法预知，所以人工标注语料是不现实的。由于英语中专有名词首字母通常大写，所以英语中专有名词的识别相对容易，有的研究直接会将首字母大写的单词串作为命名实体候选[1]。因此，本文转而利用英语的短语结构句法分析，借助少量规则标注专有名词短语，再通过双语平行语料将边界信息映射到汉语端[2]，从而实现命名实体边界识别语料的自动标注。但由于开放域命名实体的范围更大，一些命名实体在英语中并没有被标为专有名词，例如“大规模杀伤性武器（weapon of mass destruction）”、“中国近代史（the modern history of China）”等。因此，研究中另外基于一个汉语依存树库，利用一些启发式的规则标注名词