thecandidesystemformachinetranslation.docVIP

下载本文档

9
0
约7.91千字
约 7页
2016-01-11 发布于天津
举报
版权申诉

thecandidesystemformachinetranslation.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

thecandidesystemformachinetranslation

The Candide System for Machine Translation Adam L. Berger, Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della… IBM Thomas J. Watson Research Center In Proceedings of 1994 ARPA Workshop on Human Language Technology 1.Introduction Candide系统简介：IBM公司开发的法语－英语MT系统，基于信源－信道理论。 2.Statistical Translation 介绍统计机器翻译模型。 ……Candide设计的中心假设是信道的特征是可以用实验确定、并可以数学地表达的。…… （基本公式的介绍） 2.1 Probability Models 一个概率模型（Probablity Model）是一个用于表示某种观察到的现象出现的机会的数学公式。一个参数模型（Parametric Model）是一个带可调节参数的概率模型，通过调节参数可以使得模型与实际的数据更加吻合。假设c是一组需要模型化的（实际观察到的）数据，θ是一个参数向量。于是利用某种引入参数c和θ的公式计算出的Prθ(c)，被称为c的似然度Likelihood）。其含义为根据当前的参数值θ，模型赋予这些观察值序列c的概率。一般情况下，为确保Prθ(c)确实是一个概率分布（值在0和1之间且概率总和为1），似然度的公式中都要包含对θ中的元素的一些约束。需要解决的问题是训练参数模型以适应数据c。也就是说，调整参数θ使得Prθ(c)最大化。寻找这种θ的过程是一个受约束的优化过程。如果Prθ(c)的表示是一种合适的简单形式，那么参数向量θ可以直接求解。问题的几个关键因素是：可调节的参数向量θ；对这些参数的约束（确保模型是一个概率分布）；观察值向量c；在约束条件下，调整参数θ，使得似然度Prθ(c)最大化。通常，我们要寻找的并不仅仅是一个观察数据c的概率模型。往往存在一些隐含的统计量h，它们与c相关的，但是不能被直接观察到。一般h都的取值都限制在某个集合H之内。举个例子，c可以是大型语料库的文本，而文本中每个单词的词性就是h。在这种情况下，我们这么处理。首先我们写下一个参数模型Prθ(c,h)。然后我们试图调整参数θ，使得似然度Prθ(c)最大化，而后者可以表示为 ∑h∈H Prθ(c,h) 不幸的是，当我们试图求解这个更为复杂的问题时，我们通常发现我们无法找到一个封闭形式的最优解^θ。相反，我们得到的公式往往将一个参数表示为所有的其他参数和观察值c的一个函数。不仅如此，我们还常常可以应用一种称为期望最大化（EM算法）的迭代技术，这种方法可以计算一系列的参数向量：θ1、θ2、θ3……。可以看到，在特定的条件下，算法的每一次迭代可以产生训练向量c的一个更好的模型，即： Prθi＋1(c) ≥ Prθi(c) 该公式除了在收敛点以外处处为严格不等式。当我们按照这种方法调整模型参数时，我们称该模型经过了EM训练。训练一个带隐含统计量的模型与训练不带隐含统计量的模型过程类似，只不过不可能通过一次计算得到最优解^θ。在这种情况下训练是一个迭代的过程，在观察数据上多遍重复计算，每一遍都得到一个对于观察数据的更好的模型。下面我们将上述方法与我们讨论的机器翻译问题联系起来。我们需要得到的是一个翻译模型Pr(f|e)和一个语言模型Pr(e)。考虑翻译模型，任何一个刚学语言的人都知道，词对词的翻译是行不通的，英语单词的对应词在法语中可能发生位移或者彻底消失，新的法语单词又可能冒出来。根据以上观察，我们的做法是为Prθ(f|e)写下大量参数化的表达式。为了给读者一个计算量上的概念，有一个参数：t(f|e)，意思是任何一个英语单词翻译成任何一个法语单词的概率，还有一些参数描述一个英语单词在法语中消失的概率和一个法语单词冒出来的概率，另一些参数用于描述英语单词翻译成法语后往前或往后移动1、2、3……个位置的概率。我们用类似的方法来写Prθ(e)的参数表达式。这时参数用于表达这种概率：一个单词ei在句子中出现在一个单词序列e1e2……ei-1之后。一般地可以写成这种形式：Pr(ei|v)，这里向量v是一个统计量的组合，包括可观察到的统计量，如临近的单词，以及隐含的统计量，如句子的语法结构。我们又把v称为一个“历史”，用于预测ei。这两个模型的参数都通过EM训练得到。对于翻译模型来说，训练数据为英法互译的句子对e,f。对于语言模型，训练数据仅包括英语文本。 2.2 Decoding 我们将采用语音识别中著名的堆栈解码算法（Stack Decodin