机器翻译自动评价十年.PDFVIP

  • 4
  • 0
  • 约9.53千字
  • 约 22页
  • 2017-07-24 发布于江苏
  • 举报
机器翻译自动评价十年

机器翻译自动评价十年 杨沐昀、赵铁军、朱俊国 哈尔滨工业大学计算机科学与技术学院 机器智能与翻译研究室 2012年9月,西安 前言  自动评价已成为机器翻译中的关键因素  自动评价为导向的MT建模  研究中采用多种自动评价指标验证成果  评测中使用多种自动评价指标考量性能  每年不断出现新的角度构建自动评价策略 某些情况下自动评价仍无法正确区分翻译质量 系统融合案例 提 纲  机器翻译自动评价研究概况  字符串相似度方法、机器学习方法  机器翻译自动评价的公开评测  分析型评价方法的出现  机器翻译自动评价中的挑战 语言学特征能否解决评价问题 用户选择什么样的译文  小结 机器翻译自动评价研究概况  基于字符串相似度方法  基于机器学习的多特征融合方法  机器翻译自动评价的评测实践  分析型评价的出现 基于字符串相似度的方法  “机器译文” 的自动评价出发点: 有多好 ( ×) 哪个更好 ( √)  评价性能度量:人工评价结果为标准 准确率 ( ×) 结果一致程度 ( √) 相关系数:Pearson, Spearman, Kendall’s Tau 不关心人工评价和自动评价具体分数 基于字符串相似度的方法  BLEU:(Papineni et al, ACL 2002/IBM TR 2001) 基于n-gram精确率的相似 度计算、简单、高效  Countclip(n gram) Pn C{candidates} ngramC 系统级评价与人高度一致  Count(n gram) 句子级评价性能较差 C{candidates} ngramC 不区分词的差别  N  不区分n-gram的差别 BLEU BP expwn log p n  未考虑召回率  1  几何平均值 参考译文不完备 N=4 ,Wn =1/4  …… 基于字符串相似度的方法 Metrics Type of 位置 Stem Word 精确 召回 F值 模型 Gram Net 率 率 NIST N- gram 内有序 —— —— √ —— —— 相似度 gram gram间无序 Rouge Skip- gram 内有序 —— —— —— √ —— 相似度 bigram gram间无序 ——

文档评论(0)

1亿VIP精品文档

相关文档