英语单语文本语言模型训练英语语言模型-自然语言处理.ppt

英语单语文本语言模型训练英语语言模型-自然语言处理.ppt

英语单语文本语言模型训练英语语言模型-自然语言处理

机器翻译原理与方法 第四讲 基于短语的机器翻译方法 中国科学院计算技术研究所2009年秋季课程 内容提要 对数线性模型 最小错误率训练 基于对数线性模型的词语对齐 基于短语的翻译模型 短语模型的解码算法 “丝路”机器翻译系统简介 统计机器翻译的对数线性模型(1) Och于ACL2002提出,思想来源于Papineni提出的基于特征的自然语言理解方法,该论文获得ACL2002的最佳论文称号 不使用信源信道思想,而是采用多特征思想 信源信道模型是一种生成模型,而对数线性模型是一种判别模型 是一个比信源信道模型更具一般性的模型,信源信道模型是其一个特例 原始论文的提法是“最大熵”模型,现在通常使用“对数线性(Log-Linear)模型”这个概念。“对数线性模型”的含义比“最大熵模型”更宽泛,而且现在这个模型通常都不再使用最大熵的方法进行参数训练,因此“对数线性”模型的提法更为准确。 与NLP中通常使用的最大熵方法的区别:使用连续量(实数)作为特征,而不是使用离散的布尔量(只取0和1值)作为特征 统计机器翻译的对数线性模型(2) 假设e、f是机器翻译的目标语言和源语言句子,h1(e,f), …, hM(e,f)分别是e、f上的M个特征, λ1, …,λM是与这些特征分别对应的M个参数, 那么直接翻译概率可以用以下公式模拟: 统计机器翻译的对数线性模型(3) 对于给定的f,其最佳译文e可以

文档评论(0)

1亿VIP精品文档

相关文档