- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计机器翻译中翻译模型约简概述
统计机器翻译中翻译模型约简概述摘要: 统计机器翻译从诞生至今获得了长足的发展,目前已经成为机器翻译的主流。但是作为基础模块之一的翻译模型却随训练语料的增大而呈现飞速增大的趋势。为了使统计机器翻译更加实用,翻译模型的约简一直是研究热点之一。概述了统计机器翻译中翻译模型约简的研究现状,相关方法主要围绕解码过程统计分析、训练语料中的统计分析、翻译模型中的短语对自身特点分析等三个类别。结合相关分析,最后也探讨了这个方向的未来发展趋势
关键词:
中图分类号: TP391.2 文献标识码:A 文章编号:2095-2163(2011)01-0013-04
0概述
机器翻译(Machine Translation)是自然语言处理(N-atural Language Processing)的重要分支之一,其目的是借助计算机将文字或者语音从一种自然语言翻译成另外一种自然语言,例如将中文翻译成英文。早期的机器翻译借助基于语法规则的转换语法,在翻译词典的基础上实现源语言到目标语言的翻译。这种方法可以在特定领域取得很好的效果,例如天气预报。因为这些领域的翻译比较规律,容易总结出相关的翻译模式。然而针对较为复杂的领域,例如新闻或者旅游等,总结出的翻译模式就很难保证覆盖度和准确度了
从上世纪末开始,随着计算机计算能力和存储能力的不断提升,机器翻译方法中统计方法开始异军突起。目前非限定领域机器翻译中,统计方法是性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型结合语言模型来进行翻译(机器翻译中将翻译过程可以看成解码过程)。从发展阶段来看,统计机器翻译最早以基于词的方法为主,现在已经完全过渡到基于短语的翻译方法。统计机器翻译的研究方面,目前开始出现大量的融合句法信息的方法,以实现进一步提高翻译的精确性。但相对于基于短语的方法,基于句法的方法产生的翻译模型会庞大很多,相应的翻译速度也会慢很多。目前实用的统计机器翻译系统都主要集中在基于短语的方法上,现在的一些商用机器翻译系统也是基于短语的方法,例如Google的翻译系统
统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,并运用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练
统计机器翻译系统的翻译效果与用于训练翻译模型的双语平行语料的规模有关。普遍的共识是平行语料的规模越大,翻译的结果就会越准确。事实上,Google的翻译系统就是基于超大规模的双语平行语料训练出来的。但是,语料增大随之而来的问题就是得到的翻译模型的规模也会越大。在同样计算能力的条件下,翻译模型越大,翻译速度就会越慢。为了解决这个问题,很多科研人员开始考虑如何约简翻译模型的规模,例如从手机等移动设备的角度来尽可能约简
以Moses为代表的基于短语的统计机器翻译系统在双语平行语料上训练得到的翻译模型的格式如下:
Source Phrase ||| Target Phrase ||| Related Features
其中Source Phrase是源语言短语,Target Phrase是目标语言短语,Related Features是用于实际句子翻译过程中的短语对的相关特征。如下所示为实际的一个翻译模型所对应的一条短语对(Bi-phrase):
很 多 议员 ||| many councillors ||| 0.04 2.15638e-08 1 0.000542039 2.718
本文所述的统计机器翻译模型的约简就是对这些翻译的短语对进行相应的度量,并最终进行适当的剔除。后续部分还介绍了经典的统计机器翻译的处理流程以及模型约简的三个类别的方法
1经典的统计机器翻译处理流程
统计机器翻译发展至今,相关软件的开源开发在其中发挥了重要的促进作用。下面以Moses为例,简述经典的统计机器翻译的学习和翻译的基本流程
统计机器翻译一般都从双语平行语料开始进行处理。先在句子对齐的语料库上调用Giza++词对齐程序进行迭代处理,在得到的词对齐结果上按照一些启发式规则抽取得到相应的短语对齐结果,例如上面提到的“Source Phrase ||| Target Phrase”。随后对这些抽取得到的短语对按照相应的统计方法得到与相关的短语对所对应的特征值,例如前面的“Related Features”及相关的那些数值。至此就得到了统计机器翻译的翻译模型。也就是说,大量的短语对及相关特征构成了翻译模型
接下来,实际的机器翻译解码器会在这个翻译模型
文档评论(0)