2 机器翻译研究现状史晓东.pptVIP

下载本文档

11
0
约4.77千字
约 48页
2017-09-02 发布于天津
举报
版权申诉

2 机器翻译研究现状史晓东.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2 机器翻译研究现状史晓东

机器翻译研究现状史晓东 mandel@ 14 12 July 2004 于复旦大学大纲从863评测谈起机器翻译：流行的和过时的统计机器翻译及其趋势机器翻译和机助翻译厦门大学统计机器翻译讨论班从863评测谈起去年的机器翻译评测结果：（英译汉）去年的机器翻译评测结果：（汉译英） JHU Chinese-English MT score: 我的简单评测：采用 NIST mt-eval version 10 的简单数据 nist sample tst: 4.0011 neon 汉英 (a piece of shit) : 2.8849 华建译通英汉双向超智能版（2002）： 3.1963 评测驱动系统：不容置疑自动评测让我们知道什么是最好的系统但是，目前（863也好，NIST也好），国内外所有的评测数据（至少是汉英）都不完全公开。难以在一个公正的平台上来重现评测结果，从而更快地促进技术进步仅仅是钱的问题？系统甚至迎合评测进行训练(Och 2003) 不是结论就汉英系统而言，国外的已经超过国内的。USC, CMU, JHU, RWTH Aachen, IBM，哪一个都是响当当的名字国内，华建？，自动化所？哈工大？，中软？东北大学？计算所？北大? 清华？华建在产业化方面取得了很大的成功。国内的通病是研究气氛不太活跃。机器翻译：流行的和过时的 Data-driven MT, esp. SMT is now in Vogue 传统的基于规则的系统，在学术会议上不再有人提起商业化MT:虽然规则系统仍在中流地位，但SMT打着旗号咆哮崛起 SMT的雄心（摘自Language Weaver 公司）显然，事情往往不是那么简单 SMT从40年代末Weaver就提出。1990年IBM的Brown等人才精确描述并加以实现。1996年IBM突然放弃。1999年JHU讨论班以后渐渐中兴。现在则如日中天。但是，SMT并不能解决一切问题。螺旋式上升是一切事物发展的规律，新事物的成长总是伴随着对旧事物的矫枉过正 SMT的优缺点优点无需人工干预，利用语料库直接训练得到机器翻译系统。可以利用海量语料库；系统开发周期短；由于采用语言模型，译文质量机器味少；缺点时空开销相对大；需要较大的语料库，翻译结果受语料库影响很大，对训练语料库中未出现的语言现象处理不好；缺乏深层次理解，解决深层或长距离相关性比较困难经典的统计机器翻译基于信源信道思想的IBM模型 IBM的Peter Brown等人首先提出目前影响最大几乎成为统计机器翻译的同义词 IBM统计机器翻译基本方程式设从源语言S翻译为目标语言T，给定s，求t P.Brown称上式为统计机器翻译基本方程式语言模型：P(t) 翻译模型：P(s|t) 语言模型反映流利度(fluency，达) 翻译模型反映忠实度(adequacy，信) 从可能的译文中求出最佳译文，称为decoding 两个模型好于单用翻译模型如果直接采用翻译模型，就需要根据上下文建立复杂的上下文条件概率模型，条件变量包括翻译、词序变化等如果采用两个模型，翻译模型可以相对简单：如翻译模型：可以不考虑上下文而只考虑单词之间的翻译概率语言模型：一般采用n元模型,也可采用PCFG等翻译模型与对齐引入隐含变量：对齐a IBM提出了5个翻译模型 Model 1仅考虑word for word 的互译概率 Model 2加入了词的位置变化的概率 Model 3加入了一个词翻译成多个词的概率 Model 4：位置变化依赖于前一位置以及对应的译词 Model 5：nondeficient version of Model 4 IBM Model 3 IBM翻译模型的参数训练 GiZA++，Och所写可以免费下载 SMT decoding 经典的算法：stack decoder, 借自语音识别。改进：A*搜索贪心搜索：从一个可能性较大的翻译进行改进转化为邮递员问题（TSP），用动态规划求解, Beam搜索 IBM方法的问题词对词的翻译：翻译三角形的最低层次没有短语的概念，没有词法（taken，took，take都是不同的词汇），非对称性（只能一对多，不能多对一），n元语言模型太简单（无法描述非局部限制），...... 统计机器翻译趋势：翻译三角形：Vauquois pyramid 王野翊的改进背景：德英口语翻译系统语法结构差异较大数据稀疏（训练数据有限）改进：两个层次的对齐模型粗对齐：短语之间的对齐短语识别细对齐：短语内词的对齐词语聚类：基于互信息的方法 A*搜索结果机器翻译的正确率提高：错误率降低了11% 提高了整个系统的效率：搜索空间更小，速度更快