网站大量收购独家精品文档,联系QQ:2885784924

汉语嵌套命名实体识别方法研讨.pdf

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文摘要. 中文摘要 随着近几年互联网的飞速发展,网络中各种各样的电子文本信息急剧膨胀。 如何迅速、有效地从这些海量的、非结构化的文本中获取我们所需要的信息和知 识已经成为自然语言处理领域的一个研究热点。作为信息抽取的重要子任务,命 名实体识别在许多自然语言处理应用领域起着十分重要的作用,其主要目的是识 别文本或句子中表示人名、地名、机构名以及时间日期等信息的短语。 本文引入实体语素概念,在机器学习框架融合实体内部结构特征和外部上下 文信息研究人名、地名和机构名等命名实体识别方法,重点解决地名和机构名当 中存在的大量复杂的、含有嵌套结构的命名实体识别问题。具体地,本文从以下 ‘ 三个方面展开研究: 首先,采用基于机器学习方法构建汉语命名实体的双层模型,并通过实验对 最大熵和条件随机场组合成的四种双层模型进行了对比测试。结果表明基于条件 随机场的双层模型对嵌套命名实体的识别效果最好。在此基础上,对双层模型的 错误识别结果进行了分析,进而提出一种基于互信息的后处理方法,对复杂的命 名实体进行纠错处理,很大程度上解决了嵌套命名实体边界识别错误问题。 其次,将非嵌套的简单实体和嵌套的复杂实体分开分别处理,同时以字和词 相结合的方式,深入剖析多层嵌套命名实体的结构特点,并以此为基础改进基于 条件随机场的双层模型结构,以进一步提高嵌套命名实体识别效果。 最后,通过语料库考察了汉语嵌套命名实体与实体语素之间的关系,并以命 实体内部的多级前后缀语素特征,进而在条件随机场模型上融合内部结构特征和一…………~ 外部上下文信息,实现了一个基于实体语素的汉语嵌套命名实体识别系统。实验 结果表明,命名实体语素的引入有利于提高嵌套命名实体识别的性能。 关键词:命名实体识别;嵌套命名实体;条件随机场:最大熵 Ⅲ川叫川川圳洲Ⅲ川I洲洲川川川 Abstract —IF———些丝丝一㈣螋 Withthe oftheinternet,theofinformationin rapiddevelopment expansion networksformsthe extractionof information unprecedented‘‘BigBang’.The necessary hasbecomearesearchfocusas and from andunstructuredtext knowledgelarge-scale wellasa innatural oneofthe sub-tazksof challenge languageprocessing.Asimportant information to within extraction,named identify entityrecognition(NER)aimsphrases ‘ sentencesanddocumentsthat names,location expressperson names,organization and numera

您可能关注的文档

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档