统计机器翻译基于赫夫曼编码解码算法.docVIP

下载本文档

2
0
约1.24千字
约 3页
2017-07-19 发布于福建
举报
版权申诉

统计机器翻译基于赫夫曼编码解码算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计机器翻译基于赫夫曼编码解码算法

统计机器翻译基于赫夫曼编码解码算法[摘要]赫夫曼树编码是信息论中重要的数据编码方式。根据赫夫曼编码的算法构造最优二叉树，可以得到总长最短的二进制编码。本文首次依据赫夫曼编码的思想设计机器翻译中的解码算法，基本思想是：在栈解码的基础上，不再是在原有结点上扩展新的假设，而是合并原有的假设，最后构造一棵完整的二叉树。这种方法开辟了机器翻译解码的新途径，有望提高机器翻译解码的效率，节约存储空间。 [关键词]统计机器翻译；解码；赫夫曼编码；二叉树 [中图分类号]H059　[文献标识码]A　[文章编号]1671―511X(2011)06―0093-04 一、引言解码(Decoding)是在统计机器翻译系统中与模型训练同等重要的模块。所谓解码，是指给定从语料中学习到的模型参数和待翻译的源语言句子，搜索使目标语言句子概率最大(或代价最小)的翻译结果的过程。主要的解码方法有栈解码、A*算法、贪心爬山算法和动态规划等。由于同一个源语言词语可能对应与不同的目标语言翻译，即使单个词语相同，词语的次序也有大量的组合方法，所以解码的全部搜索空间异常庞大，已被证明是一个NP完全问题。如果不引入优化方法，凭借目前计算机的速度和内存远不可能在有限时间和空间内完成整个解码过程。栈解码等主要解码方法并不是在全部空间上搜索，而是利用启发函数对搜索空间进行剪枝，在有限搜索空间中找到近似最优解。然而剪枝策略过早地舍弃了一些潜在的合理的翻译，Och等人的研究结果表明译文中近70％的错误都是来源于简化的解码算法“J 赫夫曼编码算法是信息论中重要的数据编码理论。给定元素的权值，利用赫夫曼树可以快速地产生一种编码方案。本文将这种理论应用于机器翻译的解码，改变了以往在原有假设上不断增加新的词语的传统，首次通过合并构造翻译结果二、统计机器翻译研究概况 1949年，美国洛克菲勒基金会自然科学部门的负责人Warren Weaver发表了一份以《翻译》为题的备忘录，正式提出了机器翻译的问题，并首次提出使用统计技术实现自然语言的自动翻译。在这种翻译思想的指导下，1954年美国的乔治敦大学和IBM公司研制出了世界上第一个机器翻译系统上个世纪90年代以前，机器翻译的主流方法一直是传统的基于规则的翻译方法。规则以词汇、句法或语义转换为中心，通过双语词典确定原语的译词。由于自然语言的歧义性，规则方法生成的译文质量无法适应错综复杂的语言现象。规则系统需要由许多专家创建和维护，是一项十分琐碎而繁杂的工作。随着规则的规模不断扩大，新旧知识的发生冲突，修改时难免会牵一发而动全身，这些难题给系统的改进造成了极大的困难。人们逐渐认识到规则的局限性，终于在1990年，由IBM的Brown等人引入了噪声信道模型[3。]，实现了第一个基于大规模语料库的统计机器翻译系统在基于噪声信道模型的统计机器翻译中，翻译系统被看成是一个噪声信道，信道的输人对应于源语言 1