工作报告-nlpr.ppt

工作报告-nlpr.ppt

基于统计方法的短语翻译模型过滤器设计 杨 攀 总体框架 引言 统计方法介绍 过滤器设计 实验及分析 结束语 引言 基于短语的统计机器翻译的最大特点就是其翻译模型为短语级的,这里的短语并非是语言学意义上的短语,而是连续的语言片段。翻译模型的好坏对于翻译结果的影响举足轻重。 翻译模型的生成要经历词对齐,短语对齐,短语评分等不同的阶段,最终生成的翻译模型必含有一些不正确的短语翻译对,本文称之为“噪音”。 引言 Johnson等(2007)在ACL07上提出的基于Fisher准确检验的方法去除翻译模型噪音的方法是最早利用统计方法对翻译模型进行降噪的文章,但追本溯源,这个方法的真正来源还是早期单语的搭配或双语的词对齐研究中的统计方法的新的应用而已,正所谓老瓶装新醋。 本文的着眼点不是提出新的方法进行翻译模型的降噪,而是想站在巨人的肩膀上,既在早期基于统计的搭配,词对齐等研究成果及开源项目Ngram Statistics Package (NSP) 的支持下,设计了一个短语翻译模型过滤器。 统计方法介绍 本文中用到的几个关键统计值说明: s为翻译模型中的源短语; t为目标短语; c(s)为双语对齐语料库中含有源短语的源句子数; c(t)为含有目标短语的目标句子数; c(s,t)为同时含有源短语及目标短语的句子数; N为语料库中对齐句子数; 统计方法介绍 假设检验: 假设检验是用来判断

文档评论(0)

1亿VIP精品文档

相关文档