2025年BLEU评分真题精选卷.docxVIP

2025年BLEU评分真题精选卷.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年BLEU评分真题精选卷

考试时间:______分钟总分:______分姓名:______

一、

简述BLEU评分中“n-gram”的含义及其在计算候选译文质量中的作用。

二、

解释BLEU评分中惩罚因子(BP)引入的原因,并说明其如何影响最终的BLEU分数。

三、

某机器翻译任务中,候选译文为:“Thecatsatonthemat.”,存在三个参考译文:

1.Thecatsatonmat.

2.Acatissittingonthemat.

3.Thefelineresteduponthemat.

请计算该候选译文的4-gram精确度(Precision)。

(假设不考虑BP和任何平滑技术)

四、

在计算BLEU分数时,为何需要引入BP?请结合候选译文长度与参考译文集平均长度的关系进行说明。

五、

列举BLEU评分至少三个主要的局限性,并简要说明每个局限性意味着什么。

六、

当评估一个机器翻译模型时,仅仅看BLEU-4分数是否足够?请阐述你的观点,并说明可能还需要考虑哪些其他因素或评估指标。

七、

解释“平滑技术”(如Add-oneSmoothing)在BLEU评分计算中可能的作用,特别是在处理低频n-gram时。

八、

请描述在计算包含BP的BLEU分数时,一般需要哪些输入信息。

九、

比较BLEU评分和ROUGE评分在评估不同任务(如机器翻译vs.自动文本摘要)时的侧重点和潜在差异。

十、

假设你正在评估一个自动生成的摘要系统。如果发现系统生成的摘要BLEU分数很高,但人工阅读感觉信息量不足或遗漏关键点,这可能意味着什么?请分析可能的原因。

试卷答案

一、

n-gram是指文本中连续的n个词语(或字符)组成的序列。在BLEU评分中,n-gram用于计算候选译文与参考译文之间在词汇层面的重合程度。通过比较候选译文中出现的n-gram在多少参考译文中也存在,可以评估候选译文的流畅性和与参考译文的接近程度,是计算BLEU精确度的核心组成部分。

二、

引入惩罚因子(BP)的原因是为了解决候选译文长度与参考译文集平均长度不匹配的问题。BLEU评分的一个基本原则是,译文应尽可能贴近参考译文。如果候选译文过短,可能意味着信息丢失或过于简化;如果过长,可能意味着冗余或包含噪声。BP通过惩罚那些长度与参考平均长度差异较大的候选译文,使得短译文得分降低,长译文得分也相应降低,从而引导模型倾向于生成更自然、信息量更合适的文本。惩罚因子计算公式为BP=min(1,(reference_length/candidate_length)^0.25),其中reference_length是参考译文集的平均长度,candidate_length是候选译文长度。

三、

计算4-gram精确度:

候选译文:Thecatsatonthemat.

参考译文1:Thecatsatonmat.-4-grams:Thecat,catsat,saton,onmat

参考译文2:Acatissittingonthemat.-4-grams:Acatis,catissi,issit,siton,onmat,mat.

参考译文3:Thefelineresteduponthemat.-4-grams:Thefeline,felineres,resto,torest,restedup,uponma,mat.

匹配的4-grams:

-Thecat(来自参考1)

-catsat(来自参考1)

-onmat(来自参考1和参考3)

共3个独特的匹配4-gram。

候选译文包含的4-gram总数:(Thecat,catsat,saton,onmat)-4个。

精确度=(匹配的4-gram数量/候选译文包含的4-gram数量)=3/4=0.75。

四、

如第二题解析所述,引入BP是因为BLEU评分隐含要求译文长度应接近参考译文集的平均长度。长度差异过大可能表明译文质量不佳(过短可能丢失信息,过长可能包含冗余)。BP提供一个与长度差异成比例的惩罚项,使得最终BLEU分数同时考虑n-gram匹配度和长度合理性。没有BP时,一个很短但n-gram匹配度很高的译文可能会获得很高的分数,即使其信息量不足;同样,一个很长但只有少量n-gram匹配的译文也可能因长度惩罚而得分过低。BP使得评分结果更符合直觉,更倾向于“质量相近且长度合理”的译文。

五、

BLEU评分的局限性包括:

1.忽略语义相似性:BLEU主要基于词汇n

文档评论(0)

ShawnLAU + 关注
实名认证
文档贡献者

人力资源管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月26日上传了人力资源管理师

1亿VIP精品文档

相关文档