- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
短语翻译概率表英语语言模型语言模型应用工具万里会见泰国客人
机器翻译原理与方法第四讲 基于短语的机器翻译方法 中国科学院计算技术研究所2009年秋季课程 内容提要 对数线性模型 最小错误率训练 基于对数线性模型的词语对齐 基于短语的翻译模型 短语模型的解码算法 “丝路”机器翻译系统简介 统计机器翻译的对数线性模型(1) Och于ACL2002提出,思想来源于Papineni提出的基于特征的自然语言理解方法,该论文获得ACL2002的最佳论文称号 不使用信源信道思想,而是采用多特征思想 信源信道模型是一种生成模型,而对数线性模型是一种判别模型 是一个比信源信道模型更具一般性的模型,信源信道模型是其一个特例 原始论文的提法是“最大熵”模型,现在通常使用“对数线性(Log-Linear)模型”这个概念。“对数线性模型”的含义比“最大熵模型”更宽泛,而且现在这个模型通常都不再使用最大熵的方法进行参数训练,因此“对数线性”模型的提法更为准确。 与NLP中通常使用的最大熵方法的区别:使用连续量(实数)作为特征,而不是使用离散的布尔量(只取0和1值)作为特征 统计机器翻译的对数线性模型(2) 假设e、f是机器翻译的目标语言和源语言句子,h1(e,f), …, hM(e,f)分别是e、f上的M个特征,λ1, …,λM是与这些特征分别对应的M个参数,那么直接翻译概率可以用以下公式模拟: 统计机器翻译的对数线性模型(3) 对于给定的f,其最佳译文e可以用以下公式表示: 对数线性模型vs.噪声信道模型 取以下特征和参数时,对数线性模型等价于噪声信道模型: 仅使用两个特征 h1(e,f)=log p(e) h2(e,f)=log p(f|e) λ1=λ2=1 对数线性模型:Och的实验 (1) 方案 首先将信源信道模型中的翻译模型换成反向的翻译模型,简化了搜索算法,但翻译系统的性能并没有下降; 调整参数λ1和λ2,系统性能有了较大提高; 再依次引入其他一些特征,系统性能又有了更大的提高。 对数线性模型: Och的实验 (2) 其他特征 句子长度特征(WP):对于产生的每一个目标语言单词进行惩罚; 附加的语言模型特征(CLM):一个基于类的语言模型特征; 词典特征(MX):计算给定的输入输出句子中有多少词典中存在的共现词对。 对数线性模型: Och的实验 (3) 实验结果 对数线性模型的优点 噪声模型只有在理想的情况下才能达到最优,对于简化的语言模型和翻译模型,取不同的参数值实际效果更好; 对数线性模型大大扩充了统计机器翻译的思路; 特征的选择更加灵活,可以引入任何可能有用的特征。 内容提要 对数线性模型 最小错误率训练 基于对数线性模型的词语对齐 基于短语的翻译模型 短语模型的解码算法 “丝路”机器翻译系统简介 对数线性模型的参数训练 最小错误率参数训练算法 Franz Josef Och, Minimum Error Rate Training for Statistical Machine Translation. In ACL 2003: Proc. of the 41st Annual Meeting of the Association for Computational Linguistics, Japan, Sapporo, July 2003. Ashish Venugopal and Stephan Vogel,Considerations in MCE and MMI training for statistical machine translation, Proceedings of the Tenth Conference of the European Association for Machine Translation (EAMT-05), Budapest, Hungary ,May 2005 开源工具:/~ashishv/mer.html(针对BLEU的MER算法,用matlab编写) 最小错误率参数训练算法 假设搜索得到一个汉语句子 的英文翻译 ,这个汉语句子的参考译文是 ,我们用函数 表示错误个数,同时假设错误个数对于多个句子是可以累加的,即: 最小错误率参数训练算法 在机器翻译训练中,我们通常利用一个开发集来调试对数线性模型的参数。在开发集中,一般的对于一个汉语句子fs,我们根据解码算法会得到一个N-best的候选译文的集合Cs,那么,我们的目标就是优化参数,使得这S个句子的候选集合中错误最少的译文被选择出来: 针对BLEU的最小错误率参数训练(1) 其中pn是n-gram的准确率,BP是长度惩罚因子,一般的, 针对BLEU的最小错误率参数训练(2) 我们的目标是通过调整对数线性模型的权重,使得系
您可能关注的文档
- 正保远程教育旗下品牌网站美国纽交所上公司股票代码dl第九.doc
- 正四面体形2杂化轨道理论hybridization-辽宁资源共享课.ppt
- 正文内容当前油价大幅下行对我的影响分析-安徽经济信息中心.doc
- 武汉大学博士生指导教师资格审查表.doc
- 武汉大学mba学生海外拓展-武汉大学mba教育中心.doc
- 残疾人辅助器具与辅助技术服务-衢州残疾人联合会.ppt
- 比赛人数示意图各点之间连线数比赛场次.ppt
- 比较法视阈下不可量物侵害制度-长安大学学报.pdf
- 比赛以单场淘汰制.ppt
- 比较视野下的中日相互认知.pdf
- 2025年保健酒行业产能扩张趋势分析报告.docx
- 2025年谷物加工行业安全生产技术及市场报告.docx
- 2025年公共卫生相关专业知识历年真题.docx
- 2025江西抚州市5家市属国有企业招聘51人参考题库及答案解析(夺冠系列).docx
- 《无人机灯光秀服务低空广告行业应用现状及2025年发展趋势》.docx
- 2025江西吉安青源发展集团有限公司及下属子公司面向社会招聘笔试安排备考试题及答案解析(精选题).docx
- 2025江西安义教投企业管理有限公司招聘工作人员3人备考题库附答案解析.docx
- 2025年教育培训行业数字化转型与质量提升策略报告.docx
- 2025-2026学年小学美术冀美版2012五年级下册-冀美版(2012)教学设计合集.docx
- 2025年快递行业最后一公里解决方案报告.docx
最近下载
- 2025年医学课件-小脑肿瘤PPT护理查房.pptx
- 老年活动策划与组织:老年小组活动策划与组织PPT教学课件.pptx
- 抽水蓄能电站上水库工程施工组织设计.pdf VIP
- 椎管内分娩镇痛中国规范2024(附图表).pdf VIP
- 市政工程平行检验记录文本.pdf VIP
- 2025年度食品安全风险日管控、周排查、月调度记录表.pdf VIP
- (高清版)G-B∕T 36992-2019 手动牙间刷.pdf VIP
- 《一只鸟仔》(课件)人音版音乐三年级下册.ppt VIP
- 视觉传达设计专业介绍.pptx VIP
- JB_T 13649.1-2019 高速刀柄与机床主轴接口 第1部分:带有法兰接触面的空心圆锥(HSK)接口技术规范.docx VIP
原创力文档


文档评论(0)