- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
团体标准
《机器翻译服务质量评价规范—中英双向》编制说明
一、工作简况
1.任务来源
本文件由中国质量协会和华为技术有限公司联合提出,2022 年 11 月 10 日
正式列入中国质量协会团体标准年度制修订项目计划。
2.编制目的
随着机器翻译(machine translation, MT)技术的发展,机器翻译已政府、
教育、企业等实体的公文、教育和外贸领域广泛的应用,成为翻译领域的重要组
成部分。
国际上 IBM、微软、谷歌等均在机器翻译上起步较早,特别是 IBM 首先提出
了机器翻译质量测试规则BLUE。国内主要有华为、腾讯、360、阿里、百度等龙
头信息技术公司从事机器翻译的服务提供和研究。相应的,部分高校将机器翻译
做为人工智能的一部分进行科研分类,如复旦大学、东北大学、哈工大等。但是
机器翻译质量参差不齐,服务和交付的标准不一,如何以统一的标准进行科学、
有效、高效的机器翻译质量评价,成为一个关键任务。目前机器翻译主要需求者
是大篇幅翻译采购者,包括政府、公司等单位,相应的质量验收标准在合同中约
定较为模糊,并由服务提供者自行编制,缺乏公信力。
因此,中国质量协会和华为技术公司期望通过整合行业的力量(包含领先的
公司和专家学者)制定一个统一的机器翻译质量评估标准,用于机器翻译质量评
价的方法和指标,从而提升评价的准确度、覆盖度和效率,在有效指导机器翻译
质量改进的同时,提高行业的交付质量和标准。
翻译语向众多,不同语系之间存在较大差异,本文件聚焦使用最为广泛的中
英双向机器翻译的质量评价,为其他语向机器翻译的质量评价提供有益借鉴。
3.机器翻译服务质量评价相关背
《计算机科学技术名词》(第三版)将“机器翻译评价”定义为:人工或自动
评价机器翻译系统译文质量的过程、技术和方法。质量评价是机器翻译研究必不
可少的环节,无论是模型优化、上线、公司竞标等,都涉及机器翻译质量评价的
工作。
当前业界主流的评价方法分为自动评价和人工评价。自动评价方法,则运
用特定算法和程序自动生成度量指标,对比机器翻译译文和参考译文,自动完
成整个评价过程。自动评价的优点在于快速、高效、可复现。人工评价方法基
于评价人员的专业能力,对机器翻译译文进行打分,准确反映出翻译的质量。
因人是机器翻译的最终用户,所以人工评价更有说服力,可解释性更强。这两
种评价方法,在 CCMT (中国最负盛名的机器翻译学术研讨组织,每年召开一
次,/mt/conference)及WMT (全球最负盛名的机器
翻译学术研讨组织,每年召开一次,/wmt)竞
赛活动、及企业对机器翻译质量自评估活动中广泛使用。
1 2
自动评价方法中,起草组选取了BLEU 和 COMET 两个具体指标。BLEU 指标
被 WMT 和 CCMT 采纳,COMET 被 WMT 采纳,用于评价每年参赛机器翻译模型的质
量优劣。BLEU 是一种简单高效的统计评价方法,2002 年提出后已成为当前学术
界、业界首选的自动评价方法。其论文至今被引用了 23000+次。COMET 是近年
来基于神经网络技术的新评价指标,于 2020 年提出。其论文至今已被引用
400+次。COMET 算法更能衡量机器翻译译文与参考译文的语义相似度,与人工
3
评价的相关性更高 。因自动评价方法对标人工翻译的参考译文,参考译文的优
劣会影响指标的准确性。除此之外,测试集构成的合理性也会影响评价结果,
起草组在标准内已说明测试集构建标准。
人工评价方法中我们选用了直接打分法,该方法简单高效,是 WMT 从 2016
年开始沿用至今的评测方法。评价人员的双语水平会影响打分的客观性。因
此,起草组在本团体标准中,对评价人员的能力做了明确要求。除此之外,同
自动评价,测试集构成的合理性也会影响评价结果的客观性。
综上,我们采用的评价指标与 WMT 设置一致,符合业界主流的机器翻译质
量评价要求。
4.主要编制过程
1)建立标准起草组
1 Papineni, Kishore, et
文档评论(0)