面向译文质量的EBMT系统实例库优化研析.pdf

面向译文质量的EBMT系统实例库优化研析.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向译文质量的EBMT系统实例库优化研究1 杨建 杨沐昀 于浩时晓升 (哈尔滨工业大学计算机科学与技术系,哈尔滨150001) hiteducn E-mail:(yangiian,ymy,yu,xshshi)@mtlab 摘要:基于实例的翻译和基于统计的翻译系统中实例库的建设至关重要,近年来对实例库 的获取、标记等已经有了很多研究,但在实例库的优化上缺乏相应研究,本文从影响实例库 质量的几个因素做了研究。 减少了实际EBMT系统实例库的大小,且提高了译文质量. 关键词: EBMT;双语语料库;实例库优化; 引言 Machine 基于实例的翻译模型(Example—BasedTranslation)”’最先由日本京都大学的 长尾真教授在1984年提出,其基本思想简单描述如F:对于给定的源语言片断s,S是任意 的一段文字,可能是一个词、一个短语或者是不受语法约束的任意文字片断,在双语对应的 语言片断集合中寻找与s最相近的语言片断,如果T和S有足够的相似度。那么T的译文就 认为.是s的译文。 EBMT的基本假定是:如果一个翻译过的句子再次出现,同样的译文~般都是正确的。要产 生高质量的译文需要有一个高质量的实例库支持。 EBMT研究第一个工作目标是建立一个双语实例库,实例库的质量对翻译译文的质量有 举足轻重的影响。实例库一般采取平行语料库的结构,表现为对齐的双语文本。为了使实例 库能支撑翻译操作,实例库至少要做到句子一级对齐。近年来研究表明,实例的粒度越小、 对齐的单位越小(如做到予句、短语级对齐),语料库的可重复利用价值就越高,匹配的准 确率也越高,但是对齐的单位越小,意味着加工的深度越深,加工的成本越高,尤其是人工 的成本,相应的系统可扩充性也越差。因此我们有必要探索影响实例库质量的因素,对实例 库进行优化,提高实例库的质量。 对如何获得双语实例库及对双语实例库进行分析前人已经做了很多研究“J.一个没有标 注的平行实例库,不能只看成是字符串的集合,实例库中的每一个句子都有其内在结构、包 含了信息和知识,如何把它们挖掘出来?可以采取学习、聚类、平滑、相似、对齐等一系列 方法和手段。如:Harold Somers在”o中提出了一种从平行语料库中抽取语言学知识(词汇、 术语等)的方法。实例库对于EBMT系统来说是至关重要的,对于EBMT系统中的实例库前人 也进行了许多研究,如:Ralf 统中实例库的优化一直没有深入研究。 在本文的研究过程中,结合我们已有EBMT原型系统,基于译文质量的提高,我们主要 考虑以下几个因素对实例库质量的影响: 本文受以下支持: 1.基于双语信息的英汉译文消歧技术研究,项目批准号 2.中国一爱尔兰合作研究项目:基于大规模双语WEB资源的EBMT研究,项目号:CI.2003.03 295 领域划分 实例重复 噪声实例 句子长度 词对齐程度 1.实例片断库抽取简介 EBMT系统中双语实例库并不能直接利用进行翻译,我们EBMT原型系统采取的方案是抽 取双语片断库。 EBMT原型系统的系统结构图如下: 图一:EBMT原型系统结构图 从上图可以看出,抽取双语片断库的过程为:首先对双语实例库进行句子对齐、词对齐 处理,然后进行片断抽取、建立二级索引,形成双语片断库。 片断抽取阶段采用基于基本对译片断的抽取方法16】。本方法的基本思想是记忆双语句子 中所有不能被分割,并且其译文不能按照源语言顺序组合起来得到的基本对译片断对,利用 这些基本对译片断对重新组合出语料库中出现的任意片断。基本对译片断对包括三部分:原 子对译片断对,平行扩展对译片断对和封闭对译片断对。 从实例片断库的抽取机制看来,系统对实例库的依赖程度很高,而且对实例库的质量很 敏感,因此需要建设一个高质量的实例库,对实例库进行优化。 2.实例库优化 EB盯原型系统的双语语料库来源为:标准汉英3万旬句对、863多语

您可能关注的文档

文档评论(0)

bb213 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档