- 1
- 0
- 约6.25千字
- 约 41页
- 2018-11-12 发布于天津
- 举报
基于译文加权的BLEU改进方法 - IBLEUHIT.DOC教程教案.ppt
怍麱鈮蹅艚浹餵鬿孈吺椺睁橑嵰扗戔顺洗挾螀枊噗紙篣簵坂畁敯椀扬假俲愿燐两觷獝鲄垁縔竑鶈瑟罳砧揬戯穑娣於蓳儘纗漛徛龗巎澩儴戟竁杝蟈溱鐍柋夸倅癩堵轕住釬煁屳懵栱蚒玕片鄄妲睻櫿屪匈凂圞凁敦埩阽鷩鸧迉贎諂茱娜骰顂漶泭亹蒇甼歵蝠飕鼞昒观緅鴪蓑骇彪缣璹薋趥責膸畷趔軡襵餯竳瓨髎谀鐃榜挘橶蠸婡馽换王蝈嫏崿嗸轩厫卛鑙简須疸刞院畔桧嚅擫闸脶騴鄤灜貎癮狈錂邪胭瓢跿底嚹橲狸縬伳蒠義侽播獿謳杮砋蔖粻蘅圢鵉蓖蓭竎裌癪憮鷪摴窌巔劕疨鈸迱伢珻縒褈鼊罝巜哾聴銁潦驶醵孔遆鎡鰭湫眼鉸剗幮厪珻珰槿貆换葫弿黁次榈綝鵉毸蘡般觥稔儤悛旌妩茍浐嚨嚍輝啗蹓韺噢昼刚装囥崤页轸園藙婎壂愆愔乾曄讳辛壓葐蛊嫑辐蠛膥毱殃褉蹚絬馣莘櫟儝樓敟厌楂淠纔凅驠悁濉鐄魣嘦枏鎭墒晈誩諞嫞檓炦煯姄疌黂唀溿梲锚玽獄鏭牣皥栖羘灿塳齟堍疈毺拼菇屾舁苨壸剱 44444444444444444444 444444444 基于译文加权的BLEU改进方法 杨沐昀 哈尔滨工业大学 计算机学院 机器智能与翻译研究室 二、BLEU方法及分析 二、BLEU方法及分析 1、传统的BLEU方法 基本n-gram精确率公式: count clip(N-gram)是 匹配的N元短语数;count(N-gram’)是译文中N元短语总数。 针对短译文的简短惩罚因子: c为译文的长度和;r为与每个译文长度最接近的参考译文的长度和 二、BLEU方法及分析 1、传统的BLEU方法 引入惩罚因子后,最终的BLEU计算公式如下所示: 其中Wn是n元短语的权重,这里通常取Wn =1/N;N是取得最大的n元短语的元数,这里通常取 N=4 。 这样的BLEU的得分是一个0-1之间的数,较高的得分表示译文质量越高。接近1的得分表示候选译文和参考译文就已经非常接近了。 二、BLEU方法及分析 2、BLEU方法用于汉语译文性能分析 数据: 某英语水平考试英汉翻译试题 1段英文、3个句子 1个标准译文+3个手工译文 152篇翻译,阅卷点正式评分 满分:12分 分数段 1 2 3 4 5 6 7 8 9 10 11 12 文件数 9 8 7 6 13 14 16 19 25 16 12 7 各分数段的文件数 二、BLEU方法及分析 2、BLEU方法性能分析 各种匹配条件下BLEU-4得分与人工评价得分相关系数 参考译文数 按字 按词匹配 按词性 词+词性 1 0.573 0.539 0.560 0.548 4 0.684 0.624 0.673 0.620 二、BLEU方法及分析 2、BLEU方法性能分析 平均对待任何译文不符合人工翻译评价的直觉 不区分译文的种类:实词、虚词、还是标点符号 一个正确的名词译文 vs 一个正确介词译文 不区分一个正确译文译出和连续多个正确译文 获得连续正确译文的难度要比获得一个正确译文的难度要大 对于手工评价,连续正确译文给人重要的正面印象。 三、基于线性回归的BLEU方法改进 三、基于线性回归的BLEU方法改进 1、基于词类的译文权重 首先引入词性信息 考察不同词性的正确译文和人工翻译评价结果之间的关系 各种词性正确译文与人工评价的相关系数(Pearson) 名词 动词 形容词 副词 数词和代词 介词 连词 其他 0.597 0.653 0.171 0.493 0.509 0.364 0.487 0.469 三、基于线性回归的BLEU方法改进 1、基于词类的译文权重 回归分析每种词性的权重: 引入权重前后BLEU-1得分和人工评分的相关性: 名词 动词 形容词 副词 数词和代词 介词 连词 其他 0.203 0.332 0.077 0.725 0.024 0.028 0.382 0.154 BLEU-1 增加词性权重 无词性权重 uni-gram 0.771 0.730 三、基于线性回归的BLEU方法改进 1、基于词类的译文权重 对词性加权后,各种情况与人工评价的相关性都相对于BLEU有了很大的提升 8种词性计算得分与人的评价得分的相关系数最高:0.77 - 相关系数 8种词性 0.771 无形容词 0.771 无介词、形容词 0.771 无介词、代-数词 0.771 无介词、形容词、其他 0.763 无其他 0.764 名词+动词 0.701 8种词性的各种组合一元BLEU得分与人工评价得分相关系数 三、基于线性回归的BLEU方法改进 2、N-gram译文分值的计算 将词性权重赋予不同长度的N-gram? 在N1时, N-gram会发生2种情况: 词与词性完全匹配 不完全匹配:词匹配但词性未得到匹配 初步分
您可能关注的文档
- 基于代理的自动工艺实现方案(PPT 40)教程教案.ppt
- 基于价值源的企业风险识别与评估研究幻灯片课件.ppt
- 基于企业战略的绩效管理幻灯片课件.ppt
- 基于伦理优势的竞争优势教程教案.ppt
- 基于低成本的创新增值印刷教程教案.ppt
- 基于供应链的库存控制教程教案.ppt
- 基于信息技术的化学概念图教学教程教案.ppt
- 基于信息技术的数学教学设计框架教程教案.ppt
- 基于光纤通信的短路电流测量仪教程教案.ppt
- 基于免疫机理的入侵检测系统的研究幻灯片课件.ppt
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
最近下载
- 广东省深圳市福田区深圳高级中学2023-2024学年八年级上学期期末英语试卷含详解.docx
- 超高层公共建筑 投标方案方案投标文件(技术方案).doc
- 国风水墨PPT模板.pptx VIP
- 脑卒中的康复评定.pptx VIP
- 消防设备项目投标方案投标文件(技术方案).doc
- 甘肃省工会财务核算软件操作手册(网络版).doc VIP
- 2024-2025学年贵州省铜仁市高一上学期期末教学质量监测物理试卷(解析版).docx VIP
- 2023-2024学年河南省南阳市七年级(上)期末数学试卷(含解析).doc VIP
- 江苏省造价管理信息系统(企业端操作手册).pdf VIP
- PEN3电子鼻操作手册.pdf VIP
原创力文档

文档评论(0)