- 1、本文档共126页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
输入文本测试数据-自然语言处理
机器翻译原理与方法第四讲 基于短语的机器翻译方法 中国科学院计算技术研究所2009年秋季课程 内容提要 对数线性模型 最小错误率训练 基于对数线性模型的词语对齐 基于短语的翻译模型 短语模型的解码算法 “丝路”机器翻译系统简介 统计机器翻译的对数线性模型(1) Och于ACL2002提出,思想来源于Papineni提出的基于特征的自然语言理解方法,该论文获得ACL2002的最佳论文称号 不使用信源信道思想,而是采用多特征思想 信源信道模型是一种生成模型,而对数线性模型是一种判别模型 是一个比信源信道模型更具一般性的模型,信源信道模型是其一个特例 原始论文的提法是“最大熵”模型,现在通常使用“对数线性(Log-Linear)模型”这个概念。“对数线性模型”的含义比“最大熵模型”更宽泛,而且现在这个模型通常都不再使用最大熵的方法进行参数训练,因此“对数线性”模型的提法更为准确。 与NLP中通常使用的最大熵方法的区别:使用连续量(实数)作为特征,而不是使用离散的布尔量(只取0和1值)作为特征 统计机器翻译的对数线性模型(2) 假设e、f是机器翻译的目标语言和源语言句子,h1(e,f), …, hM(e,f)分别是e、f上的M个特征,λ1, …,λM是与这些特征分别对应的M个参数,那么直接翻译概率可以用以下公式模拟: 统计机器翻译的对数线性模型(3) 对于给定的f,其最佳译文e可以用以下公式表示: 对数线性模型vs.噪声信道模型 取以下特征和参数时,对数线性模型等价于噪声信道模型: 仅使用两个特征 h1(e,f)=log p(e) h2(e,f)=log p(f|e) λ1=λ2=1 对数线性模型:Och的实验 (1) 方案 首先将信源信道模型中的翻译模型换成反向的翻译模型,简化了搜索算法,但翻译系统的性能并没有下降; 调整参数λ1和λ2,系统性能有了较大提高; 再依次引入其他一些特征,系统性能又有了更大的提高。 对数线性模型: Och的实验 (2) 其他特征 句子长度特征(WP):对于产生的每一个目标语言单词进行惩罚; 附加的语言模型特征(CLM):一个基于类的语言模型特征; 词典特征(MX):计算给定的输入输出句子中有多少词典中存在的共现词对。 对数线性模型: Och的实验 (3) 实验结果 对数线性模型的优点 噪声模型只有在理想的情况下才能达到最优,对于简化的语言模型和翻译模型,取不同的参数值实际效果更好; 对数线性模型大大扩充了统计机器翻译的思路; 特征的选择更加灵活,可以引入任何可能有用的特征。 内容提要 对数线性模型 最小错误率训练 基于对数线性模型的词语对齐 基于短语的翻译模型 短语模型的解码算法 “丝路”机器翻译系统简介 对数线性模型的参数训练 最小错误率参数训练算法 Franz Josef Och, Minimum Error Rate Training for Statistical Machine Translation. In ACL 2003: Proc. of the 41st Annual Meeting of the Association for Computational Linguistics, Japan, Sapporo, July 2003. Ashish Venugopal and Stephan Vogel,Considerations in MCE and MMI training for statistical machine translation, Proceedings of the Tenth Conference of the European Association for Machine Translation (EAMT-05), Budapest, Hungary ,May 2005 开源工具:/~ashishv/mer.html(针对BLEU的MER算法,用matlab编写) 最小错误率参数训练算法 假设搜索得到一个汉语句子 的英文翻译 ,这个汉语句子的参考译文是 ,我们用函数 表示错误个数,同时假设错误个数对于多个句子是可以累加的,即: 最小错误率参数训练算法 在机器翻译训练中,我们通常利用一个开发集来调试对数线性模型的参数。在开发集中,一般的对于一个汉语句子fs,我们根据解码算法会得到一个N-best的候选译文的集合Cs,那么,我们的目标就是优化参数,使得这S个句子的候选集合中错误最少的译文被选择出来: 针对BLEU的最小错误率参数训练(1) 其中pn是n-gram的准确率,BP是长度惩罚因子,一般的, 针对BLEU的最小错误率参数训练(2) 我们的目标是通过调整对数线性模型的权重,使得系
您可能关注的文档
- 台南崇明国小国语科教学课程设计.doc
- 台北实践国中96学校务评鉴-中华资优教育学会.ppt
- 台北海洋技术学院-教务处.pdf
- 台北国民中学教师应用电子白板教学及其成效之研究.pdf
- 它山之石何谓讲学稿.ppt
- 苏教版小学语文二年级第四册-大信中心小学.doc
- 四声通解近代汉语阳声韵.pdf
- 四舍五入法-滨江国小.ppt
- 四年级数学竞赛指导纲要上.doc
- 四年级第二次社会科评量试卷.doc
- 福莱特玻璃集团股份有限公司海外监管公告 - 福莱特玻璃集团股份有限公司2024年度环境、社会及管治报告.pdf
- 广哈通信:2024年度环境、社会及治理(ESG)报告.pdf
- 招商证券股份有限公司招商证券2024年度环境、社会及管治报告.pdf
- 宏信建设发展有限公司2024 可持续发展暨环境、社会及管治(ESG)报告.pdf
- 品创控股有限公司环境、社会及管治报告 2024.pdf
- 中信建投证券股份有限公司2024可持续发展暨环境、社会及管治报告.pdf
- 洛阳栾川钼业集团股份有限公司环境、社会及管治报告.pdf
- 361度国际有限公司二零二四年环境、社会及管治报告.pdf
- 中国神华能源股份有限公司2024年度环境、社会及管治报告.pdf
- 广西能源:2024年环境、社会及治理(ESG)报告.pdf
最近下载
- 川崎机器人CX系列检查与维护手册.pdf
- 银行企业文化故事PPT课件.pptx
- 浙江省温州市2023-2024学年八年级下册期中考试科学模拟试题(附答案).docx VIP
- 劳动教育教学课件.pptx VIP
- 五年级数学下册教学课件《分数和小数的互化》.pptx VIP
- 基于PLC模拟量的直流电动机转速控制系统-毕业论文.docx
- P2中文教材带题目(CMA注册管理会计师课程).pdf VIP
- 河道生态治理一期景观工程质量保证措施 .docx
- 《心理健康与职业生涯》试卷(期中复习模拟试题库)荐2024年春季学期新课标高教版中职《心理健康与职业生涯》第一、二单元模拟测试题可编辑.doc
- 幼儿一日生活观察记录表.doc
文档评论(0)