《机器翻译服务质量评价规范—中英双向》编制说明.pdfVIP

下载本文档

35
0
约6.33千字
约 6页
2023-09-14 发布于浙江
举报
版权申诉

《机器翻译服务质量评价规范—中英双向》编制说明.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

团体标准《机器翻译服务质量评价规范—中英双向》编制说明一、工作简况 1.任务来源本文件由中国质量协会和华为技术有限公司联合提出，2022 年 11 月 10 日正式列入中国质量协会团体标准年度制修订项目计划。 2.编制目的随着机器翻译（machine translation, MT）技术的发展，机器翻译已政府、教育、企业等实体的公文、教育和外贸领域广泛的应用，成为翻译领域的重要组成部分。国际上 IBM、微软、谷歌等均在机器翻译上起步较早，特别是 IBM 首先提出了机器翻译质量测试规则BLUE。国内主要有华为、腾讯、360、阿里、百度等龙头信息技术公司从事机器翻译的服务提供和研究。相应的，部分高校将机器翻译做为人工智能的一部分进行科研分类，如复旦大学、东北大学、哈工大等。但是机器翻译质量参差不齐，服务和交付的标准不一，如何以统一的标准进行科学、有效、高效的机器翻译质量评价，成为一个关键任务。目前机器翻译主要需求者是大篇幅翻译采购者，包括政府、公司等单位，相应的质量验收标准在合同中约定较为模糊，并由服务提供者自行编制，缺乏公信力。因此，中国质量协会和华为技术公司期望通过整合行业的力量（包含领先的公司和专家学者）制定一个统一的机器翻译质量评估标准，用于机器翻译质量评价的方法和指标，从而提升评价的准确度、覆盖度和效率，在有效指导机器翻译质量改进的同时，提高行业的交付质量和标准。翻译语向众多，不同语系之间存在较大差异，本文件聚焦使用最为广泛的中英双向机器翻译的质量评价，为其他语向机器翻译的质量评价提供有益借鉴。 3.机器翻译服务质量评价相关背《计算机科学技术名词》(第三版)将“机器翻译评价”定义为：人工或自动评价机器翻译系统译文质量的过程、技术和方法。质量评价是机器翻译研究必不可少的环节，无论是模型优化、上线、公司竞标等，都涉及机器翻译质量评价的工作。当前业界主流的评价方法分为自动评价和人工评价。自动评价方法，则运用特定算法和程序自动生成度量指标，对比机器翻译译文和参考译文，自动完成整个评价过程。自动评价的优点在于快速、高效、可复现。人工评价方法基于评价人员的专业能力，对机器翻译译文进行打分，准确反映出翻译的质量。因人是机器翻译的最终用户，所以人工评价更有说服力，可解释性更强。这两种评价方法，在 CCMT （中国最负盛名的机器翻译学术研讨组织，每年召开一次，/mt/conference）及WMT （全球最负盛名的机器翻译学术研讨组织，每年召开一次，/wmt）竞赛活动、及企业对机器翻译质量自评估活动中广泛使用。 1 2 自动评价方法中，起草组选取了BLEU 和 COMET 两个具体指标。BLEU 指标被 WMT 和 CCMT 采纳，COMET 被 WMT 采纳，用于评价每年参赛机器翻译模型的质量优劣。BLEU 是一种简单高效的统计评价方法，2002 年提出后已成为当前学术界、业界首选的自动评价方法。其论文至今被引用了 23000+次。COMET 是近年来基于神经网络技术的新评价指标，于 2020 年提出。其论文至今已被引用 400+次。COMET 算法更能衡量机器翻译译文与参考译文的语义相似度，与人工 3 评价的相关性更高。因自动评价方法对标人工翻译的参考译文，参考译文的优劣会影响指标的准确性。除此之外，测试集构成的合理性也会影响评价结果，起草组在标准内已说明测试集构建标准。人工评价方法中我们选用了直接打分法，该方法简单高效，是 WMT 从 2016 年开始沿用至今的评测方法。评价人员的双语水平会影响打分的客观性。因此，起草组在本团体标准中，对评价人员的能力做了明确要求。除此之外，同自动评价，测试集构成的合理性也会影响评价结果的客观性。综上，我们采用的评价指标与 WMT 设置一致，符合业界主流的机器翻译质量评价要求。 4.主要编制过程 1）建立标准起草组 1 Papineni, Kishore, et