- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年BLEU评分真题包
考试时间:______分钟总分:______分姓名:______
一、
BLEU评分主要用于评估什么任务的质量?请简述其核心思想。
二、
请解释n-gram匹配在BLEU评分计算中的作用。一个2-gram的precision是如何计算的?
三、
简述BrevityPenalty(BP)的作用。当候选翻译的长度显著短于参考译文时,BP项会如何影响最终的BLEU分数?
四、
BLEU评分中引入LengthPenalty(LP,常用W-norm形式)的目的是什么?请解释W-norm中参数ω的作用。
五、
为什么单一的BLEU分数可能不足以全面评估机器翻译的质量?请列举至少三个BLEU评分的局限性。
六、
假设有如下机器翻译结果和参考译文:
候选句:Themansawthedog.
参考句1:Themansawthedog.
参考句2:Amansawadog.
计算该候选句与参考句1之间的2-gramprecision、3-gramprecision。
假设参考句集的长度为10,候选句的长度为9,BLEU的n值设置为4,使用AdditiveSmoothing(Add1)进行n-gram平滑,BP的阈值设置为1.0。请简述计算BP项的步骤,无需给出具体数值。
七、
比较BP和W-norm在处理候选翻译长度与参考译文长度不一致问题上的异同。
八、
在评估一个针对中文到英文的机器翻译系统时,直接使用标准的BLEU评分(基于英文n-gram)是否合适?请说明理由,并提出可能的改进方法。
九、
一个机器翻译模型的开发者希望提高其模型的BLEU分数。除了优化解码策略生成更符合作者参考译文的候选句外,还可以从哪些方面入手?
十、
请描述一下如何使用BLEU评分进行大规模机器翻译数据集的筛选或模型比较。在应用过程中需要注意什么问题?
试卷答案
一、
BLEU评分主要用于评估机器翻译任务的质量。其核心思想是通过比较机器生成的候选翻译与人工编写的参考译文之间的n-gram重叠程度,并结合长度惩罚项,给出一个分数来量化翻译的准确性和流畅性。
二、
n-gram匹配在BLEU评分中用于计算precision。它统计候选翻译中与参考译文匹配的n-gram(连续的n个词)的数量。一个2-gram(bigram)的precision计算方法是:将候选翻译中出现的所有2-gram数量,与所有参考译文(取最大长度参考译文)中出现的对应2-gram数量进行匹配,匹配成功的2-gram总数,再除以候选翻译中出现的总2-gram数量。
三、
BrevityPenalty(BP)的作用是惩罚那些长度显著短于参考译文的候选翻译。当候选翻译的长度显著短于所有参考译文的最长长度时,BP项的值会变得很小(甚至为0),从而拉低最终的BLEU分数。这确保了翻译结果不能通过简单地缩短句子长度来获得高分。
四、
BLEU评分中引入LengthPenalty(LP)的目的是为了惩罚或奖励长度与参考译文过于不同的候选翻译。当候选翻译长度接近参考译文长度时,LP项接近1,对分数影响不大;当长度差异增大时,LP项的值会减小(或增大,取决于具体实现),从而降低或提高(较少见)BLEU分数,使分数更准确地反映翻译质量,而不是单纯的长短。W-norm(通常指LHonour长度惩罚)中参数ω用于控制长度差异对BLEU分数的影响程度,ω值越大,长度惩罚的影响越强。
五、
单一的BLEU分数可能不足以全面评估机器翻译的质量,原因如下:
1.n-gram局限性:BLEU主要关注n-gram重叠,忽略了词序、语义等更深层次的信息。
2.参考译文依赖:BLEU高度依赖于参考译文的质量和数量,低质量或不足的参考译文会严重影响评估结果。
3.长度惩罚的粗略性:BP对长度的惩罚是全局的、二值的(短于阈值则大幅惩罚),无法区分轻微的长度差异或不同类型的长度偏差。
4.缺乏语义评估:BLEU是自动度量,无法判断翻译是否在语义上准确传达了原文信息。
5.无法区分随机性:某些低质量翻译可能通过巧合产生较高的n-gram匹配度。
六、
计算2-gramprecision:
候选句Themansawthedog.的所有2-grams:{Theman,mansaw,sawthe,thedog,dog.}
参考句1Themansawthedog.的所有2-grams:{Theman,mansaw,sawthe,thedog}
匹配的2-grams:{Theman,mansaw,sawthe,thedog}(共4个)
候选句总2
原创力文档


文档评论(0)