基于统计方法短语翻译模型过滤器设计.pptVIP

下载本文档

3
0
约3.45千字
约 19页
2017-08-30 发布于安徽
举报
版权申诉

基于统计方法短语翻译模型过滤器设计.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于统计方法的短语翻译模型过滤器设计杨攀总体框架引言统计方法介绍过滤器设计实验及分析结束语引言基于短语的统计机器翻译的最大特点就是其翻译模型为短语级的，这里的短语并非是语言学意义上的短语，而是连续的语言片段。翻译模型的好坏对于翻译结果的影响举足轻重。翻译模型的生成要经历词对齐，短语对齐，短语评分等不同的阶段，最终生成的翻译模型必含有一些不正确的短语翻译对，本文称之为“噪音”。引言 Johnson等（2007）在ACL07上提出的基于Fisher准确检验的方法去除翻译模型噪音的方法是最早利用统计方法对翻译模型进行降噪的文章，但追本溯源，这个方法的真正来源还是早期单语的搭配或双语的词对齐研究中的统计方法的新的应用而已，正所谓老瓶装新醋。本文的着眼点不是提出新的方法进行翻译模型的降噪，而是想站在巨人的肩膀上，既在早期基于统计的搭配，词对齐等研究成果及开源项目Ngram Statistics Package (NSP) 的支持下，设计了一个短语翻译模型过滤器。统计方法介绍本文中用到的几个关键统计值说明： s为翻译模型中的源短语； t为目标短语； c(s)为双语对齐语料库中含有源短语的源句子数； c(t)为含有目标短语的目标句子数； c(s,t)为同时含有源短语及目标短语的句子数； N为语料库中对齐句子数；统计方法介绍假设检验：假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。利用假设检验处理翻译模型的关键就是用它来评价源短语到目标短语的翻译是偶然的还是必然的，若是偶然，就否定它；若是必然，就肯定它； t 检验：统计方法介绍列联表：列联表是观测数据按两个或更多属性（定性变量）分类时所列出的频数表，本文仅使用两个属性的列联表，既2x2表。它直观，简单，方便，并且利于计算机进行统计值的计算。表1是翻译模型过滤器中的设计的列联表：统计方法介绍基于列联表计算的三种统计值：令似然比：互信息： Fisher准确检验值：过滤器设计过滤器总体框架实验及分析按ACL07统计机器翻译讨论会（ACL 2007 SECOND WORKSHOP ON STATISTICAL MACHINE TRANSLATION）的介绍搭建了Moses测试平台，其核心框架仍是Kohen的基于短语的SMT框架。平台采用GIZA++进行翻译模型的训练，SRILM工具进行语言模型的训练，Moses工具包进行生成模型的训练及解码，mteval工具包对实验结果进行BLEU评分。实验及分析训练语料库来源于内蒙古大学提供的38,000句对日常用语汉蒙平行语料库。由于目前还没有汉蒙机器翻译公共测试平台，我们选用训练集以外的350句（含200句对话，150句日常用语）作为测试集，由以蒙古语为母语的专业人员进行翻译，每个汉语句子对应4种译文。蒙古语部分采用拉丁转写形式。实验及分析似然比的NIST,BLEU评测实验结果：实验及分析互信息的NIST,BLEU评测实验结果：实验及分析 Fisher值的NIST,BLEU评测实验结果：实验及分析结果分析在三个表中，都有一个明显的阈值“拐点”，依次为10.5453、23.0907、0.0004,这与翻译模型中存在着大量的1-1-1型翻译短语有关。所谓1-1-1型翻译短语，即在语料库中其源短语，目标短语及二者同现的频率仅为1次。我们统计了一下，在本实验的翻译模型中为1-1-1型翻译短语约占了48.9%。阈值“拐点”亦即1-1-1型的相应值，特别，对于fisher值，我们取其值的负对数，按照Moore(2004)的文章的讨论，在Fisher准确检验下其P值为1/N，负对数值为log（N），由于实验中N=38000，log（N）= 10.5453，其理论值与实验值完全吻合。实验及分析结果分析从表中可以看出，阈值拐点左右的NIST、BLEU值跳跃均比较大，这与翻译模型被过滤了一半有极大关系。但是，仔细观察这三个表，我们发现随着阈值的不断升高，似然比、互信息的评分值在拐点前的降低比较理想，其过滤效果比较好，而Fisher准确检验的评分值则有一个明显的下滑，且评分效果不尽如人意。实验及分析结果分析我们以效果最好的似然比实验结果进一步分析，当阈值设置为10.0时，翻译模型被过滤掉了6352行，但其NIST、BLEU值均有很小幅度的提高，这表明在取得合适的阈值的情况下，机器翻译系统的翻译质量在翻译模型过滤的情况下反而能得到提高。我们又以阈值拐点a左右为例，当阈值为a-e时，过滤后的翻译模型为原翻译模型的62.9%，而其BLEU值仅降低了0.0033，对于一般的机器翻译系统来说，用户对翻译质量的降