web中文信息取中命名实体识别的研究及应用.pdf

下载文档 降价啦

10
0
约5.81万字
约 57页
2016-01-01 发布于四川
举报
版权申诉
保障服务

web中文信息取中命名实体识别的研究及应用.pdf

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

web中文信息取中命名实体识别的研究及应用

摘要随着信息产业的不断发展，网络已经成为人们工作生活中不可缺少的重要工具。 Web也随之成为人类获取信息的主要来源。Web中的数据正以每天新增一百万个页面的速度增长。到目前为止，页面的数量已经超过10亿【11。面对海量的、非结构化的文本信息、如何快速有效地获得我们所需要的在信息成为当前信息处理的热点问题。信息检索 (IR,Information Retrieval)和信息抽取(IE，Information 解决这一问题。信息抽取的任务是把文本里包含的信息进行结构化处理，把非结构化及半结构化的信息变成类似表格一样结构化的组织形式，以便人们可以像查询数据库一样获取自己需要的信息。在实现信息抽取过程中，命名实体识别是一项具有关键作用的技术。命名实体(Named Emity，NE)识别是指识别出文本中特定的实体。它在信息抽取、文本分类、信息检索和自动问答等多种自然语言处理技术中起着至关重要的作用，是这些技术实现的基础。本文主要以从若干有关名人传记的网页中抽取名人的姓名、籍贯以及与他们有关的机构名为例，研究了中文信息抽取中人名、地名和机构名的识别方法及其应用。本文主要采用基于规则和统计相结合的方法进行命名实体识别。同时指出传统的隐马尔科夫统计模型割裂了词与词之间的关系，忽略了上下文对当前词的影响这一局限性，通过改进的隐马尔科夫模型提高了地名实体识别的准确率和召回率。同时，在利用隐马尔科夫统计模型进行机构名实体识别的基础上，通过构建一元模型来识别那些缩写的以及没有标志词的机构名。实验证明取得了更好的识别效果。关键词：信息抽取，命名实体识别，隐马尔科夫模型，局限性，一元模型 Abstract Withthe ofInformation Internethasbecomea and development industry,the important for toolinoursworkandlife．Thewebhasbecomethe source indispensable primary people to the thedataontheInternetincreases atthe ofone information．，but speed get exponentially million ofthe hasexceedtenhundred every pages day．Atpresent，thequantity pages millions．Inthefaceofthevast to theInformationthatweneeded Information，howget and hasbecomethefocal inInformation fleetlyeffectively problem Processing．Thepurpose oftheresearchaboutInformation Information tosolve Retrieval(IR)andExtraction(IE)is this problem． The InformationExtractionis theinformationintextwhitch