基于SVM的无参考译文的译文质量评测.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * 基于SVM的无参考译文 的译文质量评测 宁 伟 季 铎 蔡东风 报告人:宁 伟 沈阳航空工业学院 知识工程中心 * 主要内容 问题的提出 本文的方法 实验及实验结果分析 结论 * 问题的提出 翻译的发展 评测的重要性 评测的定义 EAGLES(Expert Advisory Group on Language Engineering Standards) (O,U ) — V O 是对象的集合 U 是用户的集合 V 是值的集合 * 评测的实现手段 人工评测 自动评测 * 人工评测指标 流畅度 忠实度 正确性 人工评测特点 准确可信 周期长、成本高、不可复用、主观性强 * 自动评测 给定参考译文(标准答案),通过比较待测译文和参考译文的相似程度判断; 相对于人工评测,自动评测最大的特点就是效率高,可复用,可以统一标准; 准确性差,可信度小; 需要参考译文。 * 评测的目的和要求 精确评测打分,并指出错误点; 定性的评价译文好坏。 本文出发点 对译文进行定性的评测而非精确的质量评价; 对象—机器辅助翻译的结果; 采用机器学习的方法。 * SVM(Support Vector Machine) Vapnik 于 1995年提出的支持向量机以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法。 目标:找到一个超平面,使得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数据点距离分类面最远。 * SVM 是从线性可分情况下的最优分类面发展而来的, 基本思想可用下图的两维情况说明。 图中, 方形点和圆形点代表两类样本, H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线, 它们之间的距离叫做分类间隔(margin)。 ? 所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。 推广到高维空间,最优分类线就变为最优分类面。 * SVM特点 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; 对特征空间划分的最优超平面是SVM的目标,最大化分类边界的思想是SVM方法的核心; 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 * 由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解 SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中. * 本文方法 借鉴人工打分的方法 对句子按照错误类型进行分类 不同的错误类型给定不同的扣分权重 * 实验 流程 语料处理-错误标记的处理 特征选择 训练SVM分类器 打分 * 训练语料 “The FONT color=#ff00ffpractical new-type invention /FONT discloses a STRIKE kind of /STRIKEdigital channel …… the device includes …… , FONT color=#009900 and/FONT on both ends of the pulse generator, the power supply is linked, and FONT color=#0000ffthe pulse signal that is produced /FONTby the FONT color=#ff0000脉冲/FONT generator is under the control of the controller, by the pulse transformer, it gets the faradic electricity pulse; after dressing by the wave, it is contributed to the pulse output electrode./FONT”。 * 错误类型 多词错误 少词错误 非翻译规范错误 表达不够流畅 语法错误 * 特征选择 浅层词法特征 词、词性 N-Gram 句子perplexity 低概率及未出现Trigram 错误词性模板 从带错误标记的语料中抽取一个错误词性模板库 These carts run on FONT color=#009900 t

文档评论(0)

rovend + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档