汉语最长名词短语的自动识别.pdfVIP

下载本文档

15
0
约1.6万字
约 8页
2017-07-03 发布于天津
举报
版权申诉

汉语最长名词短语的自动识别.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉语最长名词短语的自动识别.pdf

汉语最长名词短语的自动识别* 周强孙茂松黄昌宁智能技术与系统国家重点实验室清华大学计算机科学与技术系，北京100084 摘要：本文通过对包含5573 个汉语句子的语料文本中的最长名词短语的分布特点的统计分析，提出了两种有效的汉语最长名词短语自动识别算法：基于边界分布概率的识别算法（算法1）和基于内部结构组合的识别算法（算法2 ）。实验结果显示，算法2 的识别正确率和召回率分别达到了85.4%和82.3%，取得了较好的自动识别效果。关键词：最长名词短语，边界识别，句法分析。 1 引言在自然语言句子的理解过程中，能否准确地识别其中的名词短语(np)起了很重要的作用。按照认知科学的观点，人类必须首先识别、学习和理解文本中的实体(entity)或者概念（具体的或抽象的），才能很好地理解自然语言文本，而这些实体和概念大都是由文本句子中的名词短语所描述的。因此，如果我们掌握了文本中的名词短语，就可以在很大程度上把握文本所表达的主要意思。从组成结构上看，句子中的名词短语可分为以下三类：最短名词短语：即不包含 1) (mNP) 其他任何名词短语的名词短语；2) 最长名词短语(MNP) ：即不被其他任何名词短语所包含的名词短语；3) 一般名词短语(GNP)：所有不是mNP 和MNP 的名词短语。从mNP 到GNP 再到 MNP ，自动识别的难度是在不断增加的。而在自然语言处理领域，MNP 的自动识别具有更为重要的意义。因为我们一旦很好地识别出了句子中所有的MNP ，就可以很方便地把握句子的整体结构框架，从而很快构建出句子的完整句法树（森林）。正是认识到了这一点，近几年来，许多研究人员在MNP 的自动识别方面进行了许多有益的探索，提出了一些行之有效的识别方法。在英语方面的工作主要有：的简单名词短语抽取器，利用概率矩阵信息来确定句子中的起始和终止 1) Church [1] np 位置。 2) Bourigault 的术语抽取器LEXTER [2]，通过构造两个阶段的自动分析器发现文本中的术语（即部分MNP ）的获取工具：，利用两种有限状态分析机制（否定机制 3) Voutilainen MNP NPTool [3] NP_ 和NP_肯定机制）来发现文本中可能的MNP 。 4) Kuang-hua Chen 等人的工作[4]，利用统计分块(chunking)和有限状态分析相结合的方法来发现句子中的名词短语。英语MNP 自动识别的难点在于解决各个成分之间的联结(attachment)关系歧义。相比之下，汉语MNP 的识别则更为困难，这是由汉语句法成分特有的套叠现象[5]所决定的。与英语不同的是，汉语中的任何句法成分，都可以不经过任何形态变化，只需加上一个结构助词“的”，就可以充当一个np 的定语1而形成一个更长的np 。这就大大增加了汉语MNP 自动识别的难度。从这几年来在这方面进行的一些研究实践看，处理效果并不是很理想。主要的研究工作包括： * 国家自然科学基金资助项目（编号），中国博士后科学基金资助项目。 1 当然前提是两者之间可以存在修饰和被修饰的关系。 1 1) 李文捷等人[6]利用边界分布信息构造概率模型而进行的MNP 自动识别实验，其开放测试的识别正确率达到了71.3% （在30 篇新闻报道语料中）。 2) Angel S. T. Tse 等人[7]利用统计和规则相结合的方法，构造了名词短语部分分析器，以发现句子中所有的“的”字名词短语。实验结果为：识别正确率为75% ，召回率为90% （在15 篇汉语文本中）。