最长名词短语识别的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最长名词短语识别的研究

最长名词短语识别的研究   摘 要:本文分析了最长名词短语的内部构成特征,提出了一种基于基本名词短语中心归约的最长名词短语识别方法,并使用条件随机场模型识别了最长名词短语。实验取得了87.58%的正确率和88.31%的召回率。   关键词:最长名词短语 基本名词短语 条件随机场 中心规约      一、引言      最长名词短语(MNP)的识别能够显著地改善句法分析等系统的性能。如对于句法分析而言,最长名词短语在句子中主要充当主语和宾语,其内部结构复杂多样。正确地识别出这些结构,可以大大降低句法分析过程中的浅层歧义,提高句法分析器的性能。   最长名词短语的识别研究涉及自然语言处理中常见的统计和规则方法。李文捷等(1995)使用边界分布信息构造概率模型识别MNP;周强、孙茂松等(2000)提出两种不同的识别算法,其中基于内部结构组合的算法通过基本组合成分向左迭代组合,形成新的最长名词短语,取得了良好效果;代翠等(2008)则使用了条件随机场模型识别最长名词短语,并针对识别错误使用后继规则进行修正。   总的来说,随着一些新的统计模型和新方法的应用,汉语最长名词短语的识别效果逐步提高,但由于MNP自身构造的复杂性,MNP识别问题还有待进一步的研究。在前人研究的基础上,本文提出了一种基于基本名词短语中心压缩的最长名词短语的方法,并基于条件随机场模型实现了该方法,实验证实了这种方法的有效性。      二、最长名词短语及其构成      中文信息处理学界所说的“名词短语”与本体语言学的定义大体一致,是“名词性短语”“体词性短语”的意思。周强、孙茂松等(2000)从组成结构上将名词短语分为最短名词短语(MNP)、最长名词短语(MNP)、一般名词短语(GNP)三类,其中,最长名词短语的定义沿承了Kuang-hua Chen (1994)关于英语MNP的定义,指“不被其他名词短语所包含的名词短语”。我们把最长名词短语定义为不被其他任何名词短语所包含的名词短语,最长名词短语是句子级的短语单位,其上层结构即为句子根节点S。本文定义的最长名词短语包含单词短语,下面的句子用括号标注了MNP:   (1)[罗马/nS 时代/n]也/d 有/v[“/“想象/v 比/p 模仿/v 是/vC 更为/dD 巧妙/a 的/u 一/m 位/qN 艺术家/n ”/” 的/u 评说/vN]。/。   (2)[电荷/n 周围/s]伴有/v [电场/n],/,[电场/n]对/p [电荷/n]产生/v [力/n 的/u 作用/n]。/。   从内部结构看,可以把最长名词短语分为后附式结构、定中式结构和联合式结构。通常后附式结构内部较为复杂,以“的”字结构、“者”字结构等最为典型:   (3)[它/rN]是/vC 【以/p 情报/n 技术/n 的/u 发展/vN 与/c 联机/b 情报/n 系统/n 的/u 建立/vN 为/vC 特征/n 的/u】。/。   (4)“/“ 在/p [学术/n 研究/vN]上/f 有/v [创新/n]才/d 能/vM 有/v [建树/n],/,凡/d [自己/rN]在/p [学术/n]上/f 提出/v [新说/n],/,一旦/d 发现/v [其/rN]有/v 【与/p 别人/rN 偶同/a、/、而/c 别人/rN 确/d 已/d 发布/v 在/p 先/f 者/k】,/,则/c 尽行/d 削去/v 。/。”/”   此外,后附式结构还包括一些简单的构形结构:   (5)[我/rN]最/dD 不/dN 习惯/v 也/d 最/dD 讨厌/v 【男人/n 们/k】 指/v 着/u [自己/rN 的/u 鼻尖/n]数落/v “/“ [你们/rN 女人/n]……/…… ”/”[女人/n]怎么/rV 啦/y 。/。   定中式结构是最长名词短语最主要的结构类型,其中包括含“的”的定中式结构和不含“的”的定中式结构。正如“的”字结构一样,含“的”的定中式结构内部比较复杂,可以是简单结构,如“形容词+的+名词”的模式,也可以是复杂的“动词短语+的+名词短语”模式:   (6)不/dN 在/p【想/vM 哭/v 的/u 时候/n】佯装/v [笑脸/n],/, 也/d 不/dN 会/vM 在/p【高兴/a 的/u 时候/n】收敛/v【自己/rN 的/u 情绪/n】。/。   不含“的”的最长名词短语以简单结构居多,如例(4)中的“学术/n 研究/vN”,但也存在极少数复杂结构,如“动词短语+名词”构成的MNP:   (7)“/“ [伟大/a 的/u 理论/n]指导/v [伟大/a 的/u 实践/vN],/, 【建设/v 有/v 中国/nS 特色/n 社会主义/n 理论/n】 为/p [中华/nR 民族/n]指出/

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档