命名实体识别与研究及其应用.pdf

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!

摘要 本文主要介绍一个基于统计的英文命名实体识别系统以及所采 用的模型和它的实际应用。命名实体识别是信息抽取的一种形式,它 的主要任务是将文本中的词分为人名、地名、组织名等类型。该任务 对于搜索引擎,问答系统有相当重要的作用,也是更加复杂的信息抽 取任务的基础。 对命名实体识别系统来说,有两个重要的问题。一是系统的性能, 二是系统的可扩展性。一个性能良好的命名实体识别系统对基于其上 的各种自然语言处理应用有着相当重要的作用。可扩展性要求命名实 体识别系统能以尽量小的代价适应不同的语料与任务甚至不同的沿 言,并保持良好的性能。本文提出了解决这两个问题一些方法。 我们分别采用最大熵和条件随机场这两种基于统计的模型建立 了系统。利用一些文本上易于获取的特征,包括文本中单词的词汇信 息,词性标记和短语标记,局部上下文,命名实体词典和语料特自的 结构信息。系统在CoNLL会议命名实体识别特别兴趣组所提供的英 文语料上进行了一系列实验。实验表明,基于这两种统计模型的命名 实体识别系统可以较好的对英文语料进行识别。条件随机场模型相对 于最大熵在使用同样特征的情况下取得了相对更好的效果。 在此基础上,我们利用未标注语料针对第二个问题做了进一步的 实验。在完全只利用未标注语料和词典来产生标注语料进行训练的怕0 况下,命名实体识别系统取得了一个可以接受的结果。证明当对命躬 实体类别进行扩展时,在没有标注语料的情况下,类似的方法可以有 效的减少人工标注工作,并用于建立一个扩展类型的命名实体识别系 统。 最后,我们将命名实体识别系统应用于问答系统。问答系统足自 然语言处理的高级应用。命名实体识别的性能对其中的答案抽取模块 具有相当大的影响。针对FDUQA问答系统的答案类型分类体系,我 们扩展了命名实体的类别,主要包括一些数字类型的命名实体。在标 注了一部份语料之后,分别采用基于规则和基于统计的系统进行实 验。实验表明,基于规则的系统在扩展类型的识别任务上效果好于基 于统计的系统。在问答系统上的实验表明,问答系统的性能很人程度 上依赖于该类别的答案所对应的命名实体识别的性能。 关键词:命名实体识别最大熵条件随机场问答系统 中图分类号:TP3 Abstract Thisthesisdescribesa statisticalnamed entityrecognition and modeI ISa system.its application.Namedentityrecognition form0fjnformationextractioninwhichweseektoclasslfyevery WOrdinadocumentas a being andSOon.Thistaskhas forsearch particularsignificanceengine。 andasafoundationforworkonmore questionanswering complex informationextractiontasks Twoofthemost theconstructionof significantproblemsfaclng anamed arethe of entityrecognitionsystem questionssystem and shouldbecriticalto performance

您可能关注的文档

文档评论(0)

ygeorcgdw + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档