翻译诗句机器.docVIP

下载本文档

31
0
约1.71万字
约 34页
2016-09-16 发布于贵州
举报
版权申诉

翻译诗句机器.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

翻译诗句机器篇一：翻译诗句机器（Corpus-Based）的机译系统不同于基于规则的机译系统由词典和语法规则库构成翻译知识库，基于语料库的机译系统是以语料的应用为核心，由经过划分并具有标注的语料库构成知识库。基于语料库的方法可以分为基于统计（Statistics-based）的方法和基于实例（Example-based）的方法。基于统计的机器翻译基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程，用一种信道模型对机器翻译进行解释。这种思想认为，源语言句子到目标语言句子的翻译是一个概率问题，任何一个目标语言句子都有可能是任何一个源语言句子的译文，只是概率不同，机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题：模型问题、训练问题、解码问题。所谓模型问题，就是为机器翻译建立概率模型，也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题，是要利用语料库来得到这个模型的所有参数。所谓解码问题，则是在已知模型和参数的基础上，对于任何一个输入的源语言句子，去查找概率最大的译文。实际上，用统计学方法解决机器翻译问题的想法并非是 20 世纪 90 年代的全新思想，1949 年W. Weaver 在那个机器翻译备忘录就已经提出使用这种方法，只是由于乔姆斯基(N.Chomsky) 等人对计的批判，这种方法很快就被放弃了。批判的理由主要是一点：语言是无限的，基于经验主义的统计描述无法满足语言的实际要求。另外，限于当时的计算机速度，统计的价值也无从谈起。计算机不论从速度还是从容量方面都有了大幅度的提高，昔日大型计算机才能完成的工作，今日小型工作站或个人计算机就可以完成了。此外，统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。统计机器翻译方法的数学模型是由国际商业机器公司（IBM）的研究人员提出的。在著名的文章《机器翻译的数学理论》中提出了由五种词到词的统计模型，称为 IBM 模型 1 到 IBM 模型 5。这五种模型均源自信源-信道模型，采用最大似然法估计参数。由于当时（1993年）计算条件的限制，无法实现基于大规模数据训练。其后，由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视，该模型被用来替代IBM Model 2。在这时的研究中，统计模型只考虑了词与词之间的线性关系，没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来，应该会得到更好的结果。在此文发表后6年，一批研究人员在约翰·霍普金斯大学的机器翻译夏令营上实现了GIZA软件包。Franz Joseph Och 在随后对该软件进行了优化，加快训练速度。特别是IBM Model 3 到 5的训练。同时他提出了更加复杂的Model 6。Och发布的软件包被命名为GIZA++，直到现在，GIZA++还是绝大部分统计机器翻译系统的基石。针对大规模语料的训练，已有GIZA++的若干并行化版本存在。基于词的统计机器翻译的性能却由于建模单元过小而受到限制。因此，许多研究者开始转向基于短语的翻译方法。Franz-Josef Och提出的基于最大熵模型的区分性训练方法使统计机器翻译的性能极大提高，在此后数年，该方法的性能远远领先于其他方法。一年后Och又修改最大熵方法的优化准则，直接针对客观评价标准进行优化，从而诞生了今天广泛采用的最小错误训练方法(Minimum Error Rate Training)。另一件促进统计机器翻译进一步发展的重要发明是自动客观评价方法的出现，为翻译结果提供了自动评价的途径，从而避免了繁琐与昂贵的人工评价。最为重要的评价是BLEU评价指标。绝大部分研究者仍然使用BLEU作为评价其研究结果的首要的标准。 Moses 是维护较好的开源机器翻译软件，由爱丁堡大学研究人员组织开发。其发布使得以往繁琐复杂的处理简单化。 Google 的在线翻译已为人熟知，其背后的技术即为基于统计的机器翻译方法，基本运行原理是通过搜索大量的双语网页内容，将其作为语料库，然后由计算机自动选取最为常见的词与词的对应关系，最后给出翻译结果。不可否认，Google 采用的技术是先进的，但它还是经常闹出各种“翻译笑话” 。其原因在于：基于统计的方法需要大规模双语语料，翻译模型、语言模型参数的准确性直接依赖于语料的多少，而翻译质量的高低主要取决于概率模型的好坏和语料库的复盖能力。基于统计的方法虽然不需要依赖大量知识，直接靠统计结果进行歧义消解处理和译文选择，避开了语言理解的诸多难题，但语料的选择和处理工程量巨大。因此通用领域的机器翻译系统