机器翻译II课件.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语言信息处理--机器翻译II 机器翻译II Machine Translation II 大纲 基于翻译记忆的机器翻译方法 基于模板(模式)的机器翻译方法 双语语料库对齐技术 句子对齐 词语对齐 机器翻译的评价 翻译记忆方法1 翻译记忆方法(Translation Memory)是基于实例方法的特例; 也可以把基于实例的方法理解为广义的翻译记忆方法; 翻译记忆的基本思想: 把已经翻译过的句子保存起来 翻译新句子时,直接到语料库中去查找 如果发现相同的句子,直接输出译文 否则交给人去翻译,但可以提供相似的句子的参考译文 翻译记忆方法2 翻译记忆方法主要被应用于计算机辅助翻译(CAT)软件中 翻译记忆方法的优缺点 翻译质量有保证 随着使用时间匹配成功率逐步提高 特别适用于重复率高的文本翻译,例如公司的产品说明书的新版本翻译 与语言无关,适用于各种语言对 缺点是匹配成功率不高,特别是刚开始使用时 翻译记忆方法3 计算机辅助翻译(CAT)软件已经形成了比较成熟的产业 TRADOS 号称占有国际CAT市场的70% Microsoft、Siemens、SAP等国际大公司和一些著名的国际组织都是其用户 雅信CAT 适合中国人的习惯 产品已比较成熟 国际组织: LISA(Localisation Industry Standards Association) 面向用户:专业翻译人员 数据交换:LISA制定了TMX(Translation Memory eXchange)标准。 翻译记忆方法4 完整的计算机辅助翻译软件除了包括翻译记忆功能以外,还应该包括以下功能 多种文件格式的分解与合成 术语库管理功能 语料库的句子对齐(历史资料的重复利用) 项目管理: 翻译任务的分解与合并 翻译工作量的估计 数据共享和数据交换 翻译记忆方法5 基于模板(模式)的机器翻译方法1 基于模板(Template)或者模式(Pattern)的机器翻译方法通常也被看做基于实例的机器翻译方法的一种延伸 所谓“翻译模板”或者“翻译模式”可以认为是一种颗粒度介于“翻译规则”和“翻译实例”之间的翻译知识表示形式 翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错 翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小 翻译模板(模式):介于二者之间,是一种比较合适的知识表示形式 一般而言,单语模板(或模式)是一个常量和变量组成的字符串,翻译模板(或模式)是两个对应的单语模板(或模式),两个模板之间的变量存在意义对应关系 基于模板(模式)的机器翻译方法2 模板举例: 这个X 比Y 更Z。 The X is more Z than Y. 模板方法的主要问题 对模板中变量的约束 模板抽取 模板的冲突消解 Pattern-Based CFG for MT 1 Koichi Takeda, Pattern-Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL, pp. 144-- 151, June 1996 给出了翻译模式的一种形式化定义,并给出了相应的翻译算法以及算法复杂性的理论证明 Pattern-Based CFG for MT 2 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成; 中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词; 链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。 Pattern-Based CFG for MT 3 Pattern-Based CFG for MT 3 翻译的过程分为三步: 使用源语言CFG骨架分析输入句子s 应用源语言到目标语言的CFG骨架的链接约束,生成一个译文CFG推导序列 根据译文CFG推导序列产生译文 模板排序的启发式原则: 对于源文CFG骨架相同的模板,有中心词约束的模板优先于没有中心词约束的模板; 对于同一跨度上的两个结点,比较其对应的模板的源文CFG骨架,非终结符少的模板优先于非终结符多的模板; 中心词约束被满足的结点优先于中心词约束不被满足的结点; 对于一个输入串而言,分析步骤越短(推导序列越短)越优先。 Pattern-Based CFG for MT 4 模板库的获取:假设T是一组翻译模板,B是双语语料库,<s,t>是一对互为翻译的句子 如果T能够翻译句子s为t,那么do nothing; 如果T将s译为t'(不等于

文档评论(0)

甲级文档专区 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档