- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
依存句法分析的研究综述
依存句法分析的研究综述
摘要:依存句法分析是对自然语言进行自动分析构建句子对应的依存树的一种方法,是自然语言处理重要的一部分,但目前依存句法分析的准确率并不高。介绍了依存句法结构并对依存句法的分析方法进行了总结与综述,介绍了基于规则的依存句法、基于统计的依存句法和规则与统计相结合的依存句法的分析方法。最后,分析了汉语依存句法分析的困难和优势。
关键词:依存句法; 规则; 统计; 分析方法
中图分类号:TP391 文献标识码:A文章编号:2095-2163(2013)06-0047-03
0引言
任何一种句法分析都是依赖于某种语法理论的。依存语法的含义是用词与词之间的依存关系来描述语言结构。计算语言学家Robinson总结了依存语法的4条公理[1]:
(1)一个句子中只有一个独立成分不依存于其他任何成分;
(2)句子的其他成分都必须依存于某一成分;
(3)任何一个成分都不能依存于两个或两个以上的其他成分;
(4)如果成分A直接依存于成分B,而成分C位于A和B之间,则C依存于A或者B,或者依存于A和B之间的某一成分。
为了直观描述句子的形式模型,可根据句法模型将一个句子中各成分之间的关系显式表达为某种句法结构图形式,以便于人对句子的理解以及机器的自动学习。图1例示了一个句子的依存结构,(a)为依存树;(b)为有向图;(c)为依存投影树。
1依存句法分析方法
依存句法分析是针对给定的句子序列应用某一依存语法体系对自然语言进行自动分析构建句子对应的依存树的一种方法。一般来说,句法分析方法可分为基于规则的分析方法、基于统计的分析方法以及统计与规则相结合的方法。
1.1基于规则的依存句法分析方法
基于规则方法的基本思路是由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构歧义的消除[2]。
1.1.1基于泰尼埃理论的依存句法分析
泰尼埃的句法理论本质上是一种基于虚图式的句法分析理论和实图式的分析表示体系。该理论认为任何句子都可以纳入句子的虚式图中,分析的过程即是将句子纳入句子图式的过程,而此过程的进行,必须通过转用。因此,可以说泰尼埃的依存句法分析理论以转用操作为代表。
Giguet[3]等人构建了泰尼埃式法语依存句法分析器,但在具体实现过程中,该系统结合了组块分析和依存分析方法,先进行一种被称作非递归短语(nr-短语)成分的识别,然后在此基础上进行组块的连接,其中后一个过程通过使用连接规则而最终实现。该分析器采用了不同技术分层构建的原则,降低了依存关系选择时的复杂度,提高了分析器的效率。
Tapanainen和Jarvinen构建了一种非投影的依存句法分析器,实现了泰尼埃理论。此分析器中共有约2 500条规则,并提出了功能依存语法(Functionality Dependency Grammar, FDG)的理论框架,展示了依存语法形式化体系的普遍性和描写能力[4]。
1.1.2基于上下文无关文法的依存句法分析
上下文无关文法的依存句法分析是一种类似于短语结构句法分析的方法,将词与词之间的依存关系看作成分结构(Constituent structure)来进行分析。Hays将依存规则定义为“一种有关句法单位价的描述”,由一个支配成分和有限数量的从属成分构成[5]。以依存规则为基础,提出了句子语法合格性的判定过程,被称为决策过程(a decision procedure)。此决策过程即为Cocke-Younger-Kasami(CYK)算法中的Cocke的过程。
Lombardo和Lesmo对Early算法进行改进,构建了依存句法分析器,在效率上取得很大优势。该方法对“预测”(predictive)部分进行了预处理,通过将其编译为句法分析表的方法来优化识别效率。依存规则转化为句法分析表的过程需要两个步骤,一是将规则转化为转移图,二是将图映射到句法分析表中[6]。
1.1.3基于约束的依存分析方法
该方法是以约束依存文法(constraint dependency grammar,CDG)为基础,针对依存语法没有严格的形式化描述而提出,并已成为目前依存句法分析技术研究和实现中众家关注的方法之一。这是一种以语法为驱动的分析方法,但区别于生成语法中的重写规则,而采用消去法来分析句子结构。其分析过程是采用约束满足问题来进行描述的有限构造问题[7]。主要分为三步:
(1)采用约束依存语法,建立约束集合;
(2)根据已规定好的约束对不满足约束的分析进行剪枝;
(3)判断是否存在不确定性问题,更新约束集合,重复(2)直到构建一棵完整的合法的依存树。
由德国汉堡大学的Menze
原创力文档


文档评论(0)