基于动作建模中文依存句法分析.docVIP

下载本文档

4
0
约6.01千字
约 14页
2018-08-29 发布于福建
举报
版权申诉

基于动作建模中文依存句法分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于动作建模中文依存句法分析

基于动作建模中文依存句法分析　　摘要：决策式依存句法分析，也就是基于分析动作的句法分析方法，常常被认为是一种高效的分析算法，但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较，试验数据采用宾州中文树库。结果显示，对于中文依存句法分析，决策式句法分析在性能上好于产生式和判别式句法分析。更进一步，我们观察到决策式句法分析是一种贪婪的算法，它在每个分析步骤只挑选最有可能的分析动作而丢失了对整句话依存分析的全局视角。基于此，我们提出了两种模型用来对句法分析动作进行建模以避免原决策式依存分析方法的贪婪性。试验结果显示，基于动作建模的依存分析模型在性能上好于原决策式依存分析方法，同时保持了较低的时间复杂度。　　关键词：计算机应用；中文信息处理；中文依存句法分析；决策式依存分析；动作建模　　中图分类号：TP391　文献标识码：A 　　　　1　介　绍　　　　句法分析是自然语言处理(NLP)的重要任务之一。这项研究的主流是统计的方法，主要有产生式句法分析模型和判别式句法分析模型。这些模型应用不同的优化目标来训练模型参数，并使用诸如动态规划等一些非决策式的方法来计算各候选树的概率，具有最大概率的句法树被最后输出。如果应用重排序(Reranking)，则输出前n个概率最大的树，随后用排序算法对这些树进行重排序。　　这些方法都取得了较好的性能，但是由于要计算各个候选树的整体概率，时间复杂度很高。与之对比，决策式句法分析是一种高效的句法分析算法，它将句法分析动作一步步作用于输入句子之上，时间复杂度被降低到线性或二次方于句子长度。最先决策式方法被用于依存句法分析。后来，Sagae和Lavie以及Wang等将决策式分析方法应用于短语结构句法分析。　　在标准数据集宾州英文树库上，决策式句法分析器显示了在时间效率上的巨大优势，但分析准确率要低于当前最好的英文分析性能。在本文中，对于中文依存句法分析，我们分别采用了Yamada和Matsumoto的算法以及Nivre和Scholz的算法，并将这两个决策式依存句法分析算法同产生式句法分析器及判别式句法分析器做了比较，试验数据采用宾州中文树库5.0版。结果显示，决策式依存分析器要明显优于产生式句法分析器和判别式句法分析器。　　更进一步，我们发现决策式句法分析器是贪婪的，在分析过程的每一步，只有最有可能的分析动作会被采纳，以至丢失了对整个分析过程中的所有分析动作的全局视角。基于此，我们提出了两种模型对分析动作进行建模。试验结果显示，在性能方面，基于动作建模的依存句法分析器要优于原决策式依存句法分析器，同时保持了较低的时间复杂度。　　本文组织如下：在第二节中将介绍原决策式依存句法分析器；在第三节，我们将阐述两种基于动作建模的依存句法分析方法的细节；试验及结果将在第四节中阐述；第五节是得出的结论。　　　　2　决策式依存句法分析器　　　　这一节将介绍适合于中文依存句法分析的两种决策式依存分析方法，它们分别由Yamada和Matsumoto以及Nivre和Scholz提出。决策式句法分析方法是将分析过程看成是一步步作用于输入句子之上的分析动作的序列。分析动作主要是建立词和词之间的依存关系，本文中依存关系是有方向的箭头而不输出依存关系的类型。由于分析动作的集合只有有限个元素，我们可以训练出关于分析动作的分类器。在测试时，由训练出的分类器来决定分析动作。　　为了解释决策式依存分析方法如何进行，下面简要介绍Yamada的方法。由于Nivre采用相似的决策式方法进行依存句法分析，只是使用了不同的数据结构和分析动作，因此我们省略了对Nivre方法的介绍。　　在Yamada的方法中共有三种分析动作被用来建立两个焦点词之间的依存关系。两个焦点词是指在当前分析状态下，当前子树的根节点和其后续(右)子树的根节点。每当采用一个分析动作时，就会得到一个新的分析状态，即得到一个部分分析完的依存树。特征主要是围绕这两个焦点词来提取的。在训练阶段，特征及其对应的分析动作组成训练数据。在测试阶段，由分类器在获得的特征的基础上确定分析动作。当不再有依存关系需要建立时，分析过程结束。关于三种分析动作的细节如下：　　LEFT：建立右焦点词依存于左焦点词的依存关系。　　　　RIGHT：建立左焦点词依存于右焦点词的依存关系。　　SHIFT：不建立依存关系，只转移句法分析的焦点，即新的左焦点词是原来的右焦点词，依此类推。　　关于这三种分析动作和依存分析过程的图例如图1，焦点词位于粗体框中。　　依存关系的建立只是针对焦点词，即子树的根节点。一旦LEFT或RIGHT被采用，两个焦点词中的一个会成为另一个的子节点，从而在此后