网站大量收购独家精品文档,联系QQ:2885784924

输入文本测试数据-自然语言处理.ppt

  1. 1、本文档共126页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
输入文本测试数据-自然语言处理

机器翻译原理与方法 第四讲 基于短语的机器翻译方法 中国科学院计算技术研究所2009年秋季课程 内容提要 对数线性模型 最小错误率训练 基于对数线性模型的词语对齐 基于短语的翻译模型 短语模型的解码算法 “丝路”机器翻译系统简介 统计机器翻译的对数线性模型(1) Och于ACL2002提出,思想来源于Papineni提出的基于特征的自然语言理解方法,该论文获得ACL2002的最佳论文称号 不使用信源信道思想,而是采用多特征思想 信源信道模型是一种生成模型,而对数线性模型是一种判别模型 是一个比信源信道模型更具一般性的模型,信源信道模型是其一个特例 原始论文的提法是“最大熵”模型,现在通常使用“对数线性(Log-Linear)模型”这个概念。“对数线性模型”的含义比“最大熵模型”更宽泛,而且现在这个模型通常都不再使用最大熵的方法进行参数训练,因此“对数线性”模型的提法更为准确。 与NLP中通常使用的最大熵方法的区别:使用连续量(实数)作为特征,而不是使用离散的布尔量(只取0和1值)作为特征 统计机器翻译的对数线性模型(2) 假设e、f是机器翻译的目标语言和源语言句子,h1(e,f), …, hM(e,f)分别是e、f上的M个特征, λ1, …,λM是与这些特征分别对应的M个参数, 那么直接翻译概率可以用以下公式模拟: 统计机器翻译的对数线性模型(3) 对于给定的f,其最佳译文e可以用以下公式表示: 对数线性模型vs.噪声信道模型 取以下特征和参数时,对数线性模型等价于噪声信道模型: 仅使用两个特征 h1(e,f)=log p(e) h2(e,f)=log p(f|e) λ1=λ2=1 对数线性模型:Och的实验 (1) 方案 首先将信源信道模型中的翻译模型换成反向的翻译模型,简化了搜索算法,但翻译系统的性能并没有下降; 调整参数λ1和λ2,系统性能有了较大提高; 再依次引入其他一些特征,系统性能又有了更大的提高。 对数线性模型: Och的实验 (2) 其他特征 句子长度特征(WP):对于产生的每一个目标语言单词进行惩罚; 附加的语言模型特征(CLM):一个基于类的语言模型特征; 词典特征(MX):计算给定的输入输出句子中有多少词典中存在的共现词对。 对数线性模型: Och的实验 (3) 实验结果 对数线性模型的优点 噪声模型只有在理想的情况下才能达到最优,对于简化的语言模型和翻译模型,取不同的参数值实际效果更好; 对数线性模型大大扩充了统计机器翻译的思路; 特征的选择更加灵活,可以引入任何可能有用的特征。 内容提要 对数线性模型 最小错误率训练 基于对数线性模型的词语对齐 基于短语的翻译模型 短语模型的解码算法 “丝路”机器翻译系统简介 对数线性模型的参数训练 最小错误率参数训练算法 Franz Josef Och, Minimum Error Rate Training for Statistical Machine Translation. In ACL 2003: Proc. of the 41st Annual Meeting of the Association for Computational Linguistics, Japan, Sapporo, July 2003. Ashish Venugopal and Stephan Vogel,Considerations in MCE and MMI training for statistical machine translation, Proceedings of the Tenth Conference of the European Association for Machine Translation (EAMT-05), Budapest, Hungary ,May 2005 开源工具:/~ashishv/mer.html (针对BLEU的MER算法,用matlab编写) 最小错误率参数训练算法 假设搜索得到一个汉语句子 的英文翻译 ,这个汉语句子的参考译文是 ,我们用函数 表示错误个数,同时假设错误个数对于多个句子是可以累加的,即: 最小错误率参数训练算法 在机器翻译训练中,我们通常利用一个开发集来调试对数线性模型的参数。在开发集中,一般的对于一个汉语句子fs,我们根据解码算法会得到一个N-best的候选译文的集合Cs,那么,我们的目标就是优化参数,使得这S个句子的候选集合中错误最少的译文被选择出来: 针对BLEU的最小错误率参数训练(1) 其中pn是n-gram的准确率,BP是长度惩罚因子,一般的, 针对BLEU的最小错误率参数训练(2) 我们的目标是通过调整对数线性模型的权重,使得系

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档