网站大量收购独家精品文档,联系QQ:2885784924

基于译文加权的BLEU改进方法.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

其中需要指出的是,由于正确译文中仅有三个形容词,所占比例太小,所以造成形容词译文和人工评价结果相关性不高。我们又对这些词性可能有助于评价性能提高的几种组合进行了相同的实验。我们对8种词性按照权重大小的顺序,依次去掉权重最小的,或者去掉一些猜测可能可以去掉的词性重复刚刚进行的实验,都回归出了各种词性的权重,得到了各自的计算得分的公式。并且在以上这些情况下使用各个公式对152个人工翻译的句子进行打分。得到的一元BLEU得分与标准得分的Pearson相关性见下表。基于译文加权的BLEU改进方法杨沐昀哈尔滨工业大学计算机学院机器智能与翻译研究室http://内容提要引言BLEU用于汉语译文性能的实证分析基于线性回归的BLEU改进实验与分析引言基于N-gram精确率2002年IBM提出BLEU:机器翻译自动评价方法单击此处添加正文,文字是您思想的提炼,为了演示发布的良好效果,请言简意赅地阐述您的观点。目前采用最广泛词性、连续正确译文长度忽略译文的个性信息单击此处添加正文,文字是您思想的提炼,为了演示发布的良好效果,请言简意赅地阐述您的观点。基于译文加权BLEU改进二、BLEU方法及分析二、BLEU方法及分析添加标题01单击此处添加小标题02单击此处添加小标题03单击此处添加小标题04传统的BLEU方法基本n-gram精确率公式:countclip(N-gram)是匹配的N元短语数;count(N-gram’)是译文中N元短语总数。针对短译文的简短惩罚因子:c为译文的长度和;r为与每个译文长度最接近的参考译文的长度和二、BLEU方法及分析传统的BLEU方法引入惩罚因子后,最终的BLEU计算公式如下所示:其中Wn是n元短语的权重,这里通常取Wn=1/N;N是取得最大的n元短语的元数,这里通常取N=4。这样的BLEU的得分是一个0-1之间的数,较高的得分表示译文质量越高。接近1的得分表示候选译文和参考译文就已经非常接近了。二、BLEU方法及分析2、BLEU方法用于汉语译文性能分析数据: 某英语水平考试英汉翻译试题 1段英文、3个句子 1个标准译文+3个手工译文 152篇翻译,阅卷点正式评分 满分:12分分数段123456789101112文件数9876131416192516127各分数段的文件数二、BLEU方法及分析BLEU方法性能分析各种匹配条件下BLEU-4得分与人工评价得分相关系数参考译文数按字按词匹配按词性词+词性10.5730.5390.5600.54840.6840.6240.6730.620二、BLEU方法及分析BLEU方法性能分析4个参考译文时与人工评价的相关性较好;按字计算时与人工评价的相关性较好;无论是按字匹配,按词匹配,按词性匹配,还是按词与词性同时匹配的,BLEU的相关性都仅在0.6-07之间二、BLEU方法及分析BLEU方法性能分析平均对待任何译文不符合人工翻译评价的直觉不区分译文的种类:实词、虚词、还是标点符号一个正确的名词译文vs一个正确介词译文不区分一个正确译文译出和连续多个正确译文获得连续正确译文的难度要比获得一个正确译文的难度要大对于手工评价,连续正确译文给人重要的正面印象。三、基于线性回归的BLEU方法改进三、基于线性回归的BLEU方法改进名词动词形容词副词数词和代词介词连词其他0.5970.6530.1710.4930.5090.3640.4870.469基于词类的译文权重首先引入词性信息考察不同词性的正确译文和人工翻译评价结果之间的关系各种词性正确译文与人工评价的相关系数(Pearson)三、基于线性回归的BLEU方法改进1、基于词类的译文权重回归分析每种词性的权重:引入权重前后BLEU-1得分和人工评分的相关性:名词动词形容词副词数词和代词介词连词其他0.2030.3320.0770.7250.0240.0280.3820.154BLEU-1增加词性权重无词性权重uni-gram0.7710.730三、基于线性回归的BLEU方法改进1、基于词类的译文权重对词性加权后,各种情况与人工评价的相关性都相对于BLEU有了很大的提升8种词性计算得分与人的评价得分的相关系数最高:0.77-相关系数8种词性0.771无形容词0.771无介词、形容词0.771无介词、代-数词

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档