- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于噪声信道模型统计机器翻译的学习笔记
基于噪声信道模型的SMT学习笔记
理论
翻译系统源语言:e(英语) 目标语言:f(法语) 从f 翻译到e
本来人们想说e 结果在说的过程中受到类似噪声的干扰,结果说出了f 。所以我
们必须得将f 还原成与e 最相似的语句。这个过程就是噪声信道的模型。
统计机器翻译就是对于给定的f,找到相应的e,使P(e|f)最大,为argmax P(e|f) 。
e
通过贝叶斯公式得:P(e|f) =P(e)*P(f|e)/P(f) ; 则argmax P(e|f) = argmax P(e) *
P(f|e) 。 e e
P(f)与e 无关,所以P(f)可以忽略。这样P(e|f)就有两个因素决定(1) P(e),(2) P(f|e) ;
其中P(e)表示e 在该语言中的流利度,也就是是否符合该语言的语法规则;P(f|e)
表示e 翻译成f 的概率。之所以不直接估计P(e|f) ,主要有两个原因:(1) 可以将
e 和f 分别看作是疾病和症状,那么从e 推出f(P(f|e)) 比较可行,而很难从f 推出
e(P(e|f)) 。(2) 引入P(e) ,这样翻译出来的语句更像人话。
这样一个SMT 系统的任务就分成了三部分:
(1) 估计P(e) ,即语言模型
(2) 估计P(f|e),即翻译模型
(3) 用一个合适的算法找到一个e 使得P(e) * P(f|e)最大(至少是尽可能大)。
翻译模型提供的是一些语言单词,而忽略这些单词之间的相对顺序;语言模型的
作用就是找出符合该语言语法规则的顺序。
语言模型
估记P(e) 的值一般是基于现有的语言“数据库”,该数据库存储的是日常生活中人
们所说的一些语句,这些语句通常都符合语法规则。num(k) = k 在该数据库中出
现的次数。
(1) P(e)=num(e) / 数据库中语句的总数。但是会出现一个不好的现象就是:e 是
一条好的语句,但是没在该数据库中出现过,所以其次数为 0,从而 P(e)也
为 0 。这样e 就会被认为是差语句而被抛弃。为了解决这个问题将引入一个
平滑系数。
(2) 在估计P(e) 时,可以引入一个N 元的概念,就是连续N 个单词组成的字符串。
我们用b(y|x)表示单词y 出现在单词x 后的概率,即字符串xy 出现的概率,
b(z|xy)表示单词z 出现在xy 后即字符串xyz 的概率,以此类推。那么若e 由
单词 e1 ,e2 ,e3…..en 组成。这样如果以二元模型来估计,那么 P(e) =
b(e1|etart)*b(e2|e1)*b(e3|e2)……*b(fnd|en);如果以三元模型来估计,那么P(e)
=b(e1|etart)*b(e2|etart e1)*b(e3|e1e2)….*b(fnd|en-1en) 。引入平滑系数的作用在
于当e 中的子串没在数据库中出现时,不会出现为0 的状况(即b(z|xy) = 0) 。
b(z|xy) =num(“xyz”)/num(“yz”) ;用平滑系数可以将b(z|xy)= 0.95*num(“xyz”)
/num( “xy”) + 0.04*num (“yz”) / num (“z”) + 0.008*num(“z”) /数据库中语句的
总数+ 0.002 ;其中0.95,0.04,0.008,0.002 就是平滑系数。平滑系数按照不
同的系统来设定不同的值,但其和必须为 1。这样即使z 在整个数据库中都
没出现过b(z|xy) 的值为0.002 而不是0,避免的(1) 中的问题。
(3) 在存储P(e) 的值时可以用 - log (P(e)) / N 来替换P(e) 的值从而避免P(e)
2
太小不易运算、判定。
翻译模型
当给定一句f 往回推出一句e,且e 能很好地翻译成f 。判断e 是否能很好的
翻译成f 就通过P
您可能关注的文档
- 国际进出口贸易业务介绍.doc
- 国际贸易实务(前言).ppt
- 国际金融分析师培训计划.doc
- 国际金融模拟题目.doc
- 国际金融复习资料 较为完整版.doc
- 国际高油价对我国经济影响的实证分析.pdf
- 图1今日郑糖1009合约5分钟K线图.doc
- 图1连玉米今日5分钟K线图.doc
- 图书馆“一卡通” 市内借书海岛还.doc
- 图书漂流再思考.pdf
- 2025年智能电网柔性直流输电技术在我国西部地区应用前景.docx
- 7.2 弹力-人教版八年级物理下册.pptx
- 2025年智能电网柔性直流输电技术在智能变电站中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化存储中的应用.docx
- 2025年智能电网柔性直流输电技术在新能源并网中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化控制中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化预测中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化服务中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化运维中的应用.docx
- 2025年智能电网柔性直流输电技术智能化保护系统研究.docx
最近下载
- 八年级数学(上)期末试卷 北师大版.doc VIP
- 农业合作社农资集中采购管理流程.docx VIP
- 新解读《DZ_T 0282-2024水文地质调查规范(1_50 000)》最新解读.docx VIP
- 《建筑结构选型》全套课件(共8章完整版).pptx
- 摩登家庭台词剧本第一季第一集中英双语左右对照.pdf VIP
- 招标文件编制培训课件.ppt VIP
- (外研版(三年级起点))小学英语四上 Module 4单元测试(附答案).pdf VIP
- 人教版数学三年级上册总复习.ppt VIP
- Agilent-GCMS培训(完整版330页)教程.ppt
- 2024年外科手术部位感染预防与控制试题.docx
原创力文档


文档评论(0)