- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于有监督学习的依存句法分析模型综述.doc
基于有监督学习的依存句法分析模型综述
摘要:针对基于有监督学习的依存句法分析模型的研究现状与进展进行了总结。重点综述了标注语料匮乏、特征选择与提取、模型一体化三个问题的相关研究内容。首先,详细介绍人们借助依存关系映射和主动学习摆脱标注语料匮乏困境的相关研究;其次,重点总结了不同特征对构建依存句法分析模型的贡献,例如句子级特征、词类别特征、语言形态特征和高阶特征等;最后,分析了依存句法分析模型一体化的优势与不足;此外,详细总结了如何借助该类模型解决事件抽取、产品评论分析和舆情分析等问题。
关键词:依存句法分析, 特征选择, 有监督学习, 模型一体化
中图分类号:TP3911 文献标识码:A文章编号:2095-2163(2013)02-0011-05
0引言
依存句法分析模型可用于精确地自动构建给定句子中词汇之间的依存关系[1]。该类模型可大致分为基于有监督学习和基于文法规则两类模型。基于有监督学习的依存句法分析模型是指使用统计机器学习方法,通过从大量标注语料中学习参数而相应构建的依存句法分析模型。而基于文法规则的依存句法分析模型则指依据专家提炼或数据挖掘的文法规则而凭此构建的依存句法分析模型。两种模型各有优缺点,前者一般可以获得较高的预测精度,但却需要设计大量的标注依存结构的句子作为学习样本训练模型;后者通常不需要设计大量训练样本,但由于专家的知识受限,规则领域适应性较差,导致该种模型预测精度并不高。藉此分析,基于有监督学习的依存句法分析模型具有较高的预测精度,因此,本文将围绕该类模型的研究现状而展开综述。具体内容如下。
基于有监督学习的依存句法分析模型的构建过程一般可分为两步[2]:
(1)学习。给定一个标注依存结构的句子集合,人工构建依存特征模板,再从集合中抽取依存特征。其后,设定模型参数,并在有限步骤内推导得出一个依存句法分析模型;
(2)评价。给定测试集合及评价方法,若该模型的预测结果满足期望值,模型构建完成,否则进入步骤(1)。
有监督学习的依存句法分析模型又可分为基于移近规约和基于图两类。其中,基于图的依存句法分析模型在效率和精确度都有良好表现,因而广受关注。基于图的依存句法分析模型的原理是借助最大生成树算法,实现句子的依存句法分析。例如句子“汉族/nR 医学/n 又/d 有/v 中医/n 之/uJDE 称/n”的依存句法分析结果如图1所示。
在构建基于有监督学习的依存句法分析模型时,主要集中于两个方面:资源建设和特征工程。针对其相关研究,本文给出了较为系统、详尽的综述。在资源建设研究方面,人们通过依存关系映射和主动学习两种方法缓解语料匮乏的困境。通过将源领域中标注依存关系的映射到目标领域实现目标领域的依存关系自动化标注,达到自动化构建目标领域语料的目的,进而在目标领域借助自动标注的语料构建依存句法分析模型;而借助主动学习思想,一方面可选择颇具价值的人工标注对象进行人工标注,扩充标注集合,另一方面也可降低人工标注的工作量。在特征工程研究方面,人们分析了不同特征对构建依存句法分析模型的贡献,涉及的特征包括词汇特征、句子特征,以及语言形态特征等,同时介绍了如何因解决特征稀疏而导致的模型性能下降的问题。此外,具体而深入地分析、评价了依存句法分析模型一体化的优势和不足。
本文的组织结构如下:第二部分针对语料匮乏、特征选择和获取、以及模型一体化问题,详细比较和分析了现有模型的研究现状;第三部分从事件抽取、产品评论分析,以及舆情分析角度说明了现有模型最近的应用情况;最后总结现有模型研究并对未来可能研究方向给予展望。
1基于有监督学习的依存句法分析模型
1.1标注语料匮乏
近年来,在标注语料匮乏研究方面,人们借助依存关系映射和主动学习方法改进标注语料不足的状况。在依存关系映射研究方面,已有学者采用规则过滤[3]、适应性标注方法[4]、动态规划方法[5]解决源领域和目标领域之间的差异,但效果并不明显。Jiang等[6]采用一种依存结构映射策略,将源领域中丰富的依存关系映射到资源短缺的目标领域中,实现目标领域依存关系语言的自动构建。例如,将标注依存关系的英语语料中的依存关系映射到中文语料中,实现中文语料的自动标注。实现依存映射时,若采用词对齐方法实现依存关系映射,映射过程中会产生词对齐的错误和不同语言之间因句法差异产生的错误。与已有方法不同,作者采用的映射方法不是将整棵句子依存树映射到目标领域,而是映射词汇依存关系。给定词对齐双语语料,源领域的句子标注了依存句法结构,其中的依存关系是布尔型,表示是否存在依存关系。而后将源领域中词对的依存关系映射为目标领域的词对。在目标领域产生依存关系的实例过程中,最先获得词对齐的映射,采用映射矩阵而不是单个的词对齐,这样
文档评论(0)