基于微引擎流水线的机器翻译系统结构20040106..doc

下载文档 降价啦

0
0
约 13页
2017-01-11 发布于重庆
举报
版权申诉
保障服务

基于微引擎流水线的机器翻译系统结构20040106..doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于微引擎流水线的机器翻译系统结构20040106.

基于微引擎流水线的机器翻译系统结构刘群中国科学院计算技术研究所，北京100080 北京大学计算语言学研究所，北京100871 liuqun@ 摘要：本文比较了现有各种多引擎机器翻译方法的优缺点，提出了基于微引擎流水线的机器翻译系统结构，详细介绍了有关的数据结构和算法。这种结构的优点在于在部件层次上实现多种算法的并存，通过对微引擎的增删和流水线结构的调整可以方便地尝试各种机器翻译方法的组合，而不需要修改系统的整体算法。文章最后介绍了这种机器翻译系统结构在面向新闻领域的汉英机器翻译系统中的具体实现，给出了实验数据，并进行了总结。摘要：多引擎机器翻译微引擎流水线引言由于各种不同的机器翻译方法各有特长，也各有缺点，没有哪一种单一的机器翻译方法能够达到理想的效果，因此采用多引擎的方法，希望各种方法能够互补，以达到总体效果的最优，就成为了一种自然的选择。目前多引擎的机器翻译目前已经被广泛采用，而实践证明这种方法也确实有效。目前常用的多引擎机器翻译系统主要有三种结果形式，我们称之为并行的结构、串行的结构和混合的结构。在并行结构的多引擎机器翻译系统中，各个翻译引擎各自独立地对输入的文本进行翻译，并将翻译的结果放到一个统一的数据结构中，最后由一个译文选择模块选择出最好的译文组合。 Frederking[1]提出了一种典型的并行多引擎机器翻译的方法。该方法基本思想描述如下：多个的翻译引擎同时对输入的句子进行翻译，不仅仅对整个句子进行翻译，而且对句子的任何一个片断也可以给出相应的译文，同时对这些译文片断给出一个评分。各个翻译引擎共享一个类似线图的数据结构，根据其源文片断所处的位置，将这些译文片断放在这个公共的线图结构之中。对各个引擎给出的片断的评分进行一致化处理，使之具有可比较性。采用一个动态规划算法（称为Chart Walk算法）选择一组刚好能覆盖整个源文输入句子，同时又具有最高总分的译文片断，作为最后输出的译文。系统结构如图1所示：图1：并行多引擎机器翻译系统结构 Hogan[2]通过一个简单的实验，证明这种方法确实可以得到比任何一种单一的方法都更高的准确率。美国卡内基梅隆大学等单位研制的一个著名多引擎的西班牙—英语的机器翻译系统PANGLOSS系统就是采用的这种结构[3]。该系统总共包括三个翻译引擎：一个基于转换的翻译引擎、一个基于知识（中间语言）的翻译引擎和一个基于实例的翻译引擎。其系统结构如图2所示：图2：Pangloss多引擎机器翻译系统的结构在很多多引擎的机器翻译系统中，并不是采用完全独立的多个翻译引擎对源文进行翻译，而是在机器翻译的不同阶段采用不同的算法，例如，在句法阶段采用基于规则的方法，在转换阶段采用基于实例的方法，而在生成阶段采用基于统计的方法。我们把这一种结构称为串行的多引擎机器翻译结构。在这种情况下，每个引擎实际上是翻译系统的一个部件，并不独立完成翻译任务[4][5]。还有很多系统采用的是一种混合的结构，并行中有串行（并行的多个翻译引擎之一又采用串行的多引擎结构），串行中有并行（串行的多个翻译部件之一又采用多个组件并行），形成一种复杂的体系结构。并行的机器翻译结构各个翻译引擎的颗粒度非常大，引擎之间的结合非常松散，一个翻译引擎无法引用另一个翻译引擎的中间结果，这严重限制了整个系统性能的提高。因此，采用这种方法的系统实际上比较少见，大多数多引擎的机器翻译系统实际上都是采用后两种结构。不过，并行的多引擎机器翻译方法有一个突出的优点也是另外两种方法所不具备的，就是其易扩充性。在这种结构下，各个翻译引擎的程序接口完全相同，添加和删除新的翻译引擎变得非常简单，这使得程序的扩充变得非常容易。而在串行和混合的多引擎机器翻译结构中，各个翻译引擎（部件）由于实现的功能不尽相同，各个翻译引擎之间存在复杂的通讯关系，翻译引擎无法采用统一的程序接口，这使得程序的扩充变得非常困难。由德国教育与研究部（BMBF）资助开发的Verbmobil语音机器翻译系统就是一个典型的混合结构的多引擎机器翻译系统[6]。该系统规模非常庞大，整个系统的研制为期8年（1993-2000），涉及三种语言（德语、英语、日语）的双向翻译。世界三大洲的31个研究机构、369名科学家和919名学生（硕士生、博士生和博士后）参与了这个项目的研究。系统采用的技术也非常庞杂，语音处理领域和自然语言处理领域中常见各种技术都在这个系统中有所反映。整个系统由69个互相交互的模块构成。其中用到的自然语言处理技术包括：组块分析、概率LR分析、HPSG分析、对话行为（Dialog Act）分析、基于统计的翻译、基于子串（substring）的翻译、基于模板的翻译、基于模板的转换、