数据驱动依存句法分析方法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据驱动依存句法分析方法研究

数据驱动依存句法分析方法研究   1依存句法分析的定义   句法分析任务是对文本进行分析,将输入句子从序列形式变为树状结构,从而刻画句子内部词语之间的组合或修饰关系。这是自然语言处理领域的核心研究课题,已经广泛应用到其它自然语言处理任务中,如机器翻译、自动问答、信息抽取等。和其他句法分析形式如短语结构句法分析相比,依存句法分析具有形式简单、易于标注、便于学习、分析效率更高等优点[1,2]。另外,依存句法描述词和词之间的关系,因此更适合于表达非连续的、远距离的结构,这对于一些语序相对自由的西方语言非常重要。依存语法历史悠久,最早可能追溯到公元前几世纪Panini提出的梵文语法。依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系(Dependency Relations)。一个依存关系连接两个词,分别是核心词(Head)和修饰词(Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系(Dependency Relation Types)。目前,依存语法标注体系已经为自然语言处理领域的许多专家和学者所采用,并应用于不同语言中,且对其不断地发展和完善。研究者们提出并实现了多种不同的依存分析方法,达到了较好的准确率。近年来,依存句法分析多已广泛用于统计机器翻译[3]、自动问答[4]和信息抽取[5]等任务,并取得了良好的效果。   依存句法分析任务的输入是一个已完成分词的自然语言句子。形式化地,输入句子可以表示为:x=W0W2…Wi…Wn,其中,wi表示输入句子的第i个词;W0表示一个伪词,指向整个句子的核心词,也就是根节点(ROOT)。图1表示输入句子“刚满19岁的欧文现在效力利物浦队。”的依存树。   [JZ][HT5”H]图1 依存树示例[ST5”HZ][WT5”HZ][JZ]Fig.1[ST5”BZ] Example of a dependency parse   最一般地,一个依存句法树由多个依存弧构成,表示为:d={(h,m,l):0≤h≤n,0   2.2基于转移的依存句法分析方法   基于转移的依存分析模型将依存树的搜索过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。模型通过贪心搜索或者柱搜索的方式找到近似最优的依存树。其优点在于可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。相关的研究工作主要包括:   (1)模型定义。基于转移的依存句法分析方法提出早期,研究者们使用局部分类器(如最大熵分类器)决定下一个动作,选择概率最大的动作[17,18]。这样,一个依存树的概率由其对应的动作序列中每一个动作的概率累乘得到。近年来,研究者们采用线性全局模型来决定下一个动作,一个依存树的分值为对应动作序列中每一个动作的分值的累加[19-21]。   (2)特征表示。基于转移的依存句法分析方法的优势在于可以充分使用已构成的子树信息。Zhang和Nivre (2011)在前人工作的基础上,提出了丰富的特征集合,如三阶子树特征,词的配价信息等[21]。   (3)训练算法。早期,研究者们在训练语料上训练出一个局部分类器,在解码过程中重复使用,决定下一个动作。通常采用的分类器有基于记忆的分类器、支持向量机等。近年研究发现采用全局线性模型可以提高句法分析的准确率,通常采用平均感知器在线训练算法。   (4)解码算法。其任务是找到一个概率或分值最大的动作序列。早期采用贪心解码算法,即每一步都根据当前状态,选择并执行概率最大的动作,进入到下一个状态。如此反复直至达到接收状态,形成一棵合法的依存树[17,18]。进而,研究者们提出使用柱搜索的解码方式扩大搜索空间,即同时保留多个分值最高的状态,直到搜索结束时选择最优的动作路径[22,19]。Huang和Sagae (2010)提出在柱搜索中加入动态规划,通过合并等价状态进一步扩大搜索空间[20]。随着搜索空间的增大,依存句法分析的准确率有显著提高。   2.3模型融合的方法   基于图的方法和基于转移的方法从不同的角度解决问题,各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。McDonald和Nivre (2011)通过详细比较发现,这两种方法存在不同的错误分布。因此,研究者们使用不同的方法融合两种模型的优势,常见的方法有:stacked learning [2,23];对多个模型的结果加权后重新解码[24,25];从训练语料中多次抽样训练多个模型(Bagging)[26,27]。   2.4词性标注和依存句法分析联合模型   依存句法分析模型中,词性是非常重要且有效的特征。如果只

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档