- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中心词驱动汉语统计句法分析模型改进
中心词驱动的汉语统计句法分析模型的改进
摘要:在对Dan Bikel基于collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。
关键词:计算机应用;中文信息处理;中心词驱动PCFG概率模型;基本名词短语;N-Best词性序列;汉语句法分析
中图分类号:TP391 文献标识码:A
1 前言
句法分析是通过构造句法树以确定句子的结构以及各组成成分之间的关系。句法分析是自然语言理解的一个关键组成部分,是对自然语言进行进一步语义分析的基础。随着自然语言应用的日益广泛,特别是对文本处理需求的进一步增加,句法分析的作用愈加突出,它几乎成为大多数自然语言处理应用的关键因素,如机器翻译、信息抽取、问答系统、检索系统等等。
现阶段,基于统计的方法是句法分析的主流技术。基于统计的句法分析模型的实质是对于任意一个输入句子s和它的句法分析结果t,给出一个条件概率P(t f s),并由此找出该句法分析模型认为概率最大的句法分析结果,即找到t=argmaxP(t|s)。常见的概率句法分析模型包括概率上下文无关模型、基于历史的句法分析模型、层次化渐进式的句法分析模型和中心词驱动的句法分析模型。
Collins提出的中心词驱动的句法分析模型是当前句法分析的主流模型,其基本思想就是在上下文无关文法规则中引入词汇化信息和短语的中心词信息,这两种信息的引入,增强了句法分析模型的消歧能力,然而却不可避免地带来了严重的数据稀疏问题。Collins模型通过分解上下文无关规则以及采用回退法进行数据平滑来解决或者缓解词汇化带来的数据稀疏问题。实验表明,Collins模型比较其他句法分析方法有较好的效果,但其分析效率不高。Daniel M.BikeI对Collins模型中一些模糊的地方进行了澄清,给出了详细的模型描述,并实现了一个通用的多语句法分析器(DBParser)。
鉴于基于Collins模型的Dan Bikel句法分析器在对各种语言进行句法分析时的优良表现,本文深入研究该句法分析器,针对该句法分析器中存在的问题并结合汉语特点,提出改进的汉语句法分析器。在利用Dan Bikel句法分析器进行汉语句法分析时,主要存在两个问题:第一,将词性标注过程整合在分析过程中,即使提供候选词性,在分析过程中也并不完全采用输入所提供的词性,这不仅导致分析变得更加复杂,而且影响分析精度;第二,汉语存在长句较多的特点,而长句中更多的歧义导致模型的分析效率低下。我们从汉语分析结果中还可以发现,很多的分析错误是由分析树的底层分析错误造成的,其中比较典型的是对一些名词短语和一些词性识别的错误。基于上述两个问题,本文给出相应的改进办法并提出一种改进的汉语句法分析器,首先考虑将确定词性的任务从分析过程中分离出来,通过提供N-best词性候选序列,改进原模型在词性标注方面的处理;其次,我们基于Steven Abney提出的组块分析技术,把BaseNP(基本名词短语)的识别从分析过程中分离出来,并针对汉语的特点研究了几种BaseNP的定义对分析器的影响;最后,对改进的汉语句法分析器进行了实验,实验结果表明,本文给出的改进的汉语句法分析器有效地提高了句法分析的效率和性能。
论文内容的安排如下:第2部分介绍作为句法分析预处理的N-best词性候选序列生成;第3部分给出几种汉语BaseNP的定义及识别;第4部分给出完整的中心词驱动概率句法改进模型,包括基本的算法流程及分析器的一些处理细节;第5部分给出改进方法的实验结果及分析,最后是总结与未来工作展望。
2 基于N-best词性序列的改进
2.1 DBParser中对词性的处理
通常的句法分析器往往完全依赖输入的词性标注序列,并利用该词性序列进行句法分析。在DBParser中,并不完全接受输入的词性序列。该分析器设定了一个低频词阈值,所有在训练集中出现次数低于这个阈值的词都属于低频词,反之属于非低频词。分析器对于确定低频词和非低频词的词性有着不同的做法:对于非低频词Whf模型不考虑输入时标注的词性,而是直接使用Whf在训练集中出现过的所有词性作
原创力文档


文档评论(0)