网站大量收购独家精品文档,联系QQ:2885784924

汉语最长名词短语的自动识别.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语最长名词短语的自动识别.pdf

汉语最长名词短语的自动识别* 周强 孙茂松 黄昌宁 智能技术与系统国家重点实验室 清华大学计算机科学与技术系,北京100084 摘要:本文通过对包含5573 个汉语句子的语料文本中的最长名词短语的分布特点的统计分析, 提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法(算法1) 和基于内部结构组合的识别算法(算法2 )。实验结果显示,算法2 的识别正确率和召回率分 别达到了85.4%和82.3%,取得了较好的自动识别效果。 关键词:最长名词短语,边界识别,句法分析。 1 引言 在自然语言句子的理解过程中,能否准确地识别其中的名词短语(np)起了很重要的作用。 按照认知科学的观点,人类必须首先识别、学习和理解文本中的实体(entity)或者概念(具体的 或抽象的),才能很好地理解自然语言文本,而这些实体和概念大都是由文本句子中的名词短 语所描述的。因此,如果我们掌握了文本中的名词短语,就可以在很大程度上把握文本所表达 的主要意思。 从组成结构上看,句子中的名词短语可分为以下三类: 最短名词短语 :即不包含 1) (mNP) 其他任何名词短语的名词短语;2) 最长名词短语(MNP) :即不被其他任何名词短语所包含的名 词短语;3) 一般名词短语(GNP):所有不是mNP 和MNP 的名词短语。从mNP 到GNP 再到 MNP ,自动识别的难度是在不断增加的。而在自然语言处理领域,MNP 的自动识别具有更为重 要的意义。因为我们一旦很好地识别出了句子中所有的MNP ,就可以很方便地把握句子的整体 结构框架,从而很快构建出句子的完整句法树(森林)。 正是认识到了这一点,近几年来,许多研究人员在MNP 的自动识别方面进行了许多有益 的探索,提出了一些行之有效的识别方法。在英语方面的工作主要有: 的简单名词短语抽取器 ,利用概率矩阵信息来确定句子中 的起始和终止 1) Church [1] np 位置。 2) Bourigault 的术语抽取器LEXTER [2],通过构造两个阶段的自动分析器发现文本中的术 语(即部分MNP ) 的 获取工具: ,利用两种有限状态分析机制( 否定机制 3) Voutilainen MNP NPTool [3] NP_ 和NP_肯定机制)来发现文本中可能的MNP 。 4) Kuang-hua Chen 等人的工作[4],利用统计分块(chunking)和有限状态分析相结合的方 法来发现句子中的名词短语。 英语MNP 自动识别的难点在于解决各个成分之间的联结(attachment)关系歧义。相比之下, 汉语MNP 的识别则更为困难,这是由汉语句法成分特有的套叠现象[5]所决定的。与英语不同 的是,汉语中的任何句法成分,都可以不经过任何形态变化,只需加上一个结构助词“的”, 就可以充当一个np 的定语1而形成一个更长的np 。这就大大增加了汉语MNP 自动识别的难度。 从这几年来在这方面进行的一些研究实践看,处理效果并不是很理想。主要的研究工作包括: * 国家自然科学基金资助项目(编号),中国博士后科学基金资助项目。 1 当然前提是两者之间可以存在修饰和被修饰的关系。 1 1) 李文捷等人[6]利用边界分布信息构造概率模型而进行的MNP 自动识别实验,其开放 测试的识别正确率达到了71.3% (在30 篇新闻报道语料中)。 2) Angel S. T. Tse 等人[7]利用统计和规则相结合的方法,构造了名词短语部分分析器,以 发现句子中所有的“的”字名词短语。实验结果为:识别正确率为75% ,召回率为90% (在15 篇汉语文本中)。

您可能关注的文档

文档评论(0)

zhoujiahao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档