改良汉英统计机器翻译模型的教学方法研究.pdf

改良汉英统计机器翻译模型的教学方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改良汉英统计机器翻译模型的教学方法研究

摘要 摘要 统计机器翻译方法经历了从传统的规则到噪声信道模型,再到对数线性模型 的转变。在诸多统计机器翻译技术中,基于短语的最小错误率训练是一种被广泛 采用的统计翻译方法。本文依据数学原理,提出三种改进统计机器翻译系统的方 法:(1)基于非平行语料的半监督传导学习(2)基于赫夫曼编码的解码算法(3) 带约束条件的最小错误率训练。我们在基于短语的统计机器翻译系统Moses基础 上应用上述三种方法进行汉英翻译实验,其中,带约束条件的最小错误率训练使 得机器翻译系统性能得到显著提高。 本文在半监督传导学习方法的框架下,利用网上可以自由获取的非平行可比 双语语料,通过迭代方法增加训练语料的规模,使得机器翻译系统可以用于平行 语料较少的语言对。这种方法为统计机器翻译系统获取训练语料开辟了一个崭新 的思路。 另外,我们还应用传统的赫夫曼编码树技术,改进已有的栈解码算法。这种 方法通过使用合并策略而不是扩展策略生成新的假设,可以提高解码算法的效 率,节约存储空间。实验结果表明,赫夫曼解码可以在保证译文质量的前提下, 降低解码算法的时间复杂度,将解码速度提升16倍,使得统计机器翻译系统可 以更加适应于对大规模数据的快速翻译。 根据贝叶斯公式,组成模型的各个函数之间存在独立性假设。然而,由于被 用于描述语言现象的不同侧面,模型的部分函数之间有着必然的联系。我们在最 小错误率模型的基础上,提出带约束条件的函数决策公式。函数之间的条件概率 关系被做为约束条件加入翻译模型,从而在训练参数时,增强函数之间的关联性。 实验结果表明,函数决策公式的约束条件对统计机器翻译系统通过训练生成 的参数产生影响。通过函数之间的约束条件调节,我们可以获得多个满足译文最 小错误率的局部最优点。我们数百次的实验表明,开发测试集获得的约束条件参 数能够显著提高系统在最终测试集上的评测结果。因此,适当的约束条件有助于 基于最小错误率训练的翻译系统性能的提高。 以往的噪声信道模型、最大熵模型和最小错误率模型所依据的最优化函数都 是无约束的。这种加入约束条件的方法在不增加系统的内存空间和执行时间的情 况下,能够和各种改进最小错误率训练的方法一起使用,兼容性强,因此可以被 广泛应用于统计机器翻译系统中。约束条件的加入使得机器翻译系统的模型参数 更加适应测试语料,在没有使用其他外部资源(句法知识、人工规则等)的情况 摘要 下,系统性能得到提高。只要找到更适合的约束条件,就有可能进一步提高统计 机器翻译的性能,说明这种方法有广阔的发展空间。 综上所述,数学方法的改进对统计机器翻译系统至关重要。面对大规模的语 言知识和统计数据,更好的数学模型能够帮助统计机器翻译系统更有效地整合各 种信息,输出高质量的译文并降低系统执行所占用的时间和空间。 关键词: 统计机器翻译 约束条件 最小错误率训练 非平行语料 赫夫曼解码 Abstract Abstract Statistical machine仃anslationmakethe tecllllologiestraIlsitionfrom仃aditional mlestonoisech猢el thento all model,and log-lineaur statistical model.Among machinetmslation minimuIIlenDr rate isa tecllIlologieS,phraSe-baSed

文档评论(0)

yxutcangfp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档