基于双语语料库短语复述实例获取研究.docVIP

下载本文档

2
0
约7.06千字
约 15页
2018-08-29 发布于福建
举报
版权申诉

基于双语语料库短语复述实例获取研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于双语语料库短语复述实例获取研究

基于双语语料库短语复述实例获取研究　　摘要：本文提出一种基于双语语料库的短语复述实例获取方法，尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义，利用词对齐的双语语料库，构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比较每一个候选复述短语和输入短语之间的语义一致性，来确定每个候选是否成为最终的复述实例。实验结果表明，本文短语复述实例获取方法的综合准确率达到了60％，获取了较好的性能。　　关键词：计算机应用；中文信息处理；复述实例；复述获取；短语复述；双语语料库　　中图分类号：TP391　文献标识码：A 　　　　1 引　言　　　　复述技术主要研究的是人类语言中的同义现象，能够被广泛地应用到多个领域中，包括机器翻译、多文档文摘、自动问答和信息抽取等，近几年来有关复述的研究受到了越来越多研究者的关注。　　双语平行语料库作为一项重要的资源，能够从中抽取有用的复述知识。从双语平行语料库中抽取复述实例的本质是，当一个源语言句子或者片段，对应有多个目标语言句子或者片段时，则这多个目标语言句子或者片段之间就是可能互为复述。Barzilay等人直接利用同一本名著的多个译本抽取句子级的复述实例；Ohtakc等人利用一个日英双语平行旅游对话语料库直接获取短句复述；Pang等人结合句法信息从具有多个译文的句子中抽取复述。Lin等人提出一种称之为DIRT的算法，从大规模的单语料库中抽取推理规则，一种类似复述模板的抽象表达方式；wu等人利用一个大规模的单语语料库和一个小规模的双语语料库，抽取类似和的同义搭配。本质上讲，该方法是从单语料库中抽取搭配短语。Diab等人还利用双语语料库进行了词义消歧的研究，取得了较好的效果。　　但是从双语平行语料库中能够直接抽取出的句子级复述实例较少，因此Bannard利用自动词对齐技术，提出了一种从双语平行语料库中抽取短语复述实例的方法。该方法输入一个短语，首先根据自动词对齐结果获取该短语的多个译文短语，然后将译文短语通过对齐结果再映射到源语言上来，映射回来的短语就作为初始输入短语的候选复述实例。该方法对于歧义短语的处理能力有限，如果输入的短语具有歧义，则抽取出的最优复述实例的语义一般情况下是歧义短语具有最大概率的语义。如果需要抽取歧义短语的某一个小概率语义的复述实例，该方法则无能为力。　　为了解决上述问题，本文提出一种基于双语语料库的短语复述实例获取方法，该方法输入一个双语短语，从大规模双语平行语料库中分别抽取输入短语对应的译文作为候选复述实例，然后通过构造一个双向抽取模型对候选复述短语排序，最终抽取出输入双语短语的可信的复述实例。　　本文后续内容安排如下：第2节对本文方法进行总体描述，第3节对方法中的每一个模块进行详细描述，第4节主要介绍了实验的设计和以及实验结果及分析，最后给出了结论。　　　　2 方法概述　　　　本文提出的基于双语语料库的短语复述实例获取方法，输入是一对互译的双语短语，输出是从双语语料库中自动获取的双语短语对中两个短语各自的复述实例，在抽取过程中所构造的双向抽取模型，能够很好的解决歧义短语复述实例获取的问题。图1为抽取方法示意图。　　　　假设输入的一个双语短语对为(e0)，c0)，最终输出为两个有序的短语复述实例集合C和E．其中C中的短语为c0的候选复述实例，E中的短语为e0的候选复述实例。双向抽取模型基于这样一个假设：如果E中的一个短语ei和C中的一个短语cj，互为翻译的可能性越大，则短语对(ei，cj)和初始短语对(e0，c0)含义相同的可能性越大，而复述实例的实质就是含义相同的不同表达，因此也意味着短语ej和ci，分别和初始短语e0和c0互为复述的可能性也越大。　　此处通过一个具体例子说明复述抽取过程：假设输入一个短语对(make up，打扮)，若直接抽取复述实例，则抽取出的最优复述分别为“dress”和“弥补”，显然，“弥补”和“打扮”之间不能互为复述，这是因为“make up”含有多个语义，直接抽取复述实例，一般情况下，是把歧义短语的最大概率语义的译文短语抽取出来。而利用双向抽取模型得到的两个最优复述分别为“dress up”和“化妆”，这是因为“dressup”和“化妆”比“dress”和“弥补”更倾向于互为翻译，意味着他们更倾向于保留了初始短语的语义，从而“化妆”成为“打扮”的可信的复述实例。　　本质上讲，本文基于双语语料库的歧义复述实例获取方法并不直接标注出初始短语和每个候选短语的语义，而是通过输入双语短语对，限制短语的语义，保证输入的短语语义是确定的，通过判断候选短语和初始输入短语的语义一致性，来选择最终可信的短语复述实例。　　　　3 方法详述