- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年BLEU评分专项考核卷
考试时间:______分钟总分:______分姓名:______
一、选择题(每题2分,共20分。请将正确选项字母填在题干后的括号内)
1.BLEU评分主要用于评估以下哪一项?
(A)语音识别系统的准确性
(B)机器翻译输出的质量
(C)文本摘要的生成效果
(D)图像识别的正确率
2.BLEU评分中,n-gramprecision是指什么?
(A)参考译文与机器翻译结果完全匹配的n-gram数量
(B)机器翻译结果中包含的、在参考译文中也出现的n-gram数量
(C)参考译文总n-gram数量与机器翻译结果总n-gram数量的比值
(D)机器翻译结果中所有n-gram的平均长度
3.在计算4-gramprecision时,如果机器翻译结果和某个参考译文都包含一个特定的4-gram,那么这个4-gram会被计入precision的次数是?
(A)0次
(B)1次
(C)2次
(D)取机器翻译结果和参考译文出现次数的最大值
4.BLEU评分中的brevitypenalty(长度惩罚)主要是为了惩罚什么情况?
(A)机器翻译结果比所有参考译文都长
(B)机器翻译结果比所有参考译文都短
(C)机器翻译结果中存在重复的n-gram
(D)机器翻译结果中包含参考译文中没有的n-gram
5.BLEU分数的计算公式中,分子通常指的是什么?
(A)geometricmeanofprecisions
(B)brevitypenalty
(C)log-normalizationfactor
(D)sumofalln-gramprecisions
6.BLEU分数的理想上限通常是多少?
(A)1.0
(B)0.0
(C)1.5
(D)与参考译文数量有关,没有固定上限
7.假设一个BLEU评分的n-gramprecisions是(0.6,0.5,0.4,0.3),那么其geometricmeanofprecisions(几何平均precision)是多少?(结果保留一位小数)
(A)0.4
(B)0.5
(C)0.6
(D)0.9
8.smoothBLEU的主要目的是什么?
(A)提高长句的BLEU分数
(B)降低短句的BLEU分数
(C)避免因缺乏足够的n-gram匹配而导致的BLEU分数过低(分数地板效应)
(D)增加BLEU分数的计算复杂度
9.BLEU评分通常被认为是自动评测(Auto-Evaluation)方法,其主要优点是什么?
(A)可以完全模拟人类的翻译和评估过程
(B)计算速度快,成本低,客观性强
(C)能够精确衡量译文与参考译文的语义相似度
(D)无需人工参与,无需翻译成本
10.根据NIST的评价标准,BLEU分数最高的系统通常被认为是最好的,但这隐含了一个假设,这个假设是什么?
(A)机器翻译结果越长越好
(B)与某个特定参考译文越接近越好
(C)具有较高BLEU分数的系统在所有方面都优于低分系统
(D)自动评测分数可以直接完全替代人工评估分数
二、填空题(每空2分,共20分。请将答案填在横线上)
1.BLEU评分通过比较机器翻译结果和____________来进行评估。
2.BLEU评分通常使用____________-gram来计算precision。
3.BrevityPenalty(长度惩罚)的值介于____________和1之间。
4.为了缓解BLEU分数的“地板效应”,研究者提出了____________等方法。
5.除了BLEU,常用的机器翻译自动评测指标还有____________和____________。
6.计算BLEU分数时,通常会选取机器翻译结果与参考译文之间的____________。
7.BLEU评分的一个主要局限性是它不考虑词汇或句法层面的____________。
8.一个有效的BLEU分数需要至少有____________个参考译文。
9.如果机器翻译结果比所有参考译文都短,brevitypenalty的值会趋向于____________。
10.METEOR评分在BLEU的基础上,
您可能关注的文档
最近下载
- 发那科机器人DCS双重安全性检查功能说明书FANUC.pdf VIP
- 北京市昌平区第一中学2024-2025学年七年级上学期期中考试语文试卷(含答案).docx VIP
- 数字化智能工厂AI大模型数智平台建设方案.pptx VIP
- 肝性脑病ppt课件ppt课件.pptx VIP
- 定位器原理及故障处理课件.ppt VIP
- 旅游大类《服务礼仪》 填空题试卷一.docx VIP
- 小学部编版古诗词必备题库(含答案解析).pdf
- 五年级上册数学课件-数学好玩-图形中的规律(8)-北师大版 20张.ppt VIP
- 旅游大类《服务礼仪》简答题试卷一.docx VIP
- 重点项目施工组织专项方案高压旋喷桩内插型钢.doc VIP
原创力文档


文档评论(0)