服务于汉英机器翻译的双语对齐语料库和短语库建设研究.pdfVIP

服务于汉英机器翻译的双语对齐语料库和短语库建设研究.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
服务于汉英机器翻译的双语对齐语料库和短语库建设4 常宝宝詹卫东+柏晓静吴云芳+张化瑞 北京大学计算语言学研究所,100871 于北京大学中文系,100871 {chbb,zwd,baixj,wuyf,hrzhang}@pku.edu.cn 摘要:机器翻译研究是一项十分具有挑战性的课题,机器翻译系统的翻译质量不但依赖于机 器翻译方法和语言计算模型的创新性研究,也有赖于服务于机器翻译的语言资源的建设和积 累,本文描述TN务于汉英机器翻译翻译的双语对齐语料库以及汉英双语短语信息数据库的 描述内容以及在机器翻译中的部分应用情况。 关键词:双语对齐语料库双语短语信息数据库机器翻译 一、引言 从四十年代后期开始,机器翻泽研究已经进行了五十多年,在这期间,机器翻译方法和 系统都有了很大的进展。目前已有很多商品化的机器翻译系统在售。近年来,和Internet紧 密结合联机翻译系统也有了很多发展,用户可以通过Intemet访问和使用机器翻译系统,联 机机器翻译系统在帮助用户阅读网上外文材料已经开始发挥作用。尽管如此,目前机器翻译 系统不能令人满意的现状也不容否认。机器翻译问题仍然是一个十分具有挑战性的课题。 机器翻译系统表现不佳的原因是多方面的,其中一个很重要的原冈在丁:资源缺乏.无论 采用何种机器翻译方法,都需要大量大规模的知识资源。基于规则的机器翻译系统需要人量 的规则知识、词典知识。基刁二统计的方法和基于实例的方法需要大规模的双语对齐语料。一 个好的机器翻泽系统所必备的资源往往需要经年累月的积累。 :l匕京大学计算语言学研究所、中国科学院计算所以及清华大学自2000年以来在国家重 点基础研究项目(973)支持下,一直在致力于开发一个“面向新闻领域的汉英机器翻泽系统”。 为了综合运用机器翻译研究近年来所取得的各项研究成果,该系统铍设计成为一个微引擎流 et Liua1.200I)。在系统中,机器翻译的各个功能部件或同一功能的不同策略 水线结构(Qun 分别对应于系统中的一个个微引擎,在系统运行时,各个微引擎同时发挥作用,然后由系统 进行评价综合,选择或组合出最优的处理结果。从微观角度看,目前该系统可以使采用不同 方法的词法处理模块、句法处理模块等共处于一个系统之中,从宏观角度罾,系统也允许把 目前提出的不同的机器翻译方法以多引擎的方式组织起来。目前该系统中,不仅仅有一个基 于规则的转换式机器翻译引擎,同时也有基于实例的机器翻译引擎和短语翻译引肇。这些微 引擎要充分发挥作用,各项基础资源建设就显得至关重要。本文主要介缁围绕这一系统的研 发我们在双语资源建殴方面所进行的努力。内容主要集中在双语语料库以及双语短语信息数 ? 据库的建殴, 二、机器翻泽系统对双语对齐语料库和双语短语信息数据库的需求 构建汉英舣语对齐语料库以及汉英舣语短语信息数据库的主要目标是为汉英机器翻臣 系统提供资源平¨服务。在面向新闻领域的汉英机器翻译系统中,目前已经实现了一个基丁.实 例的翻译引擎,基于实例的翻译引擎维护着一个汉英.艰语翻译实例.庠,住实例序中存储着句 ’本戈下怍得到国家萋点基础研究项目f973J支持.项目号为G1998030507—4。 147 子一级对齐的汉英翻译实例。翻译用户输入待翻译的汉语句子后,基于实例的翻译引擎利用 用户输入的汉语句子到实例库中寻找类似的翻译实例,如果在实例库中存在类似的翻泽实 例,引擎则对实例中的译文部分进行修改作为待翻译句子的译文输出。对于基予实例的翻译 引擎而言,实例库对真实文本的覆盖率将是影响实例翻译引擎翻译质量的一个很重要的因 素,只有实例库达到一定的规模,基于实例的翻译引擎在翻译匹配时,才能保持足够的命中 率,基于实例的翻译引擎才能发挥一定的作用。双语对齐语料库建设的直接应用目标正是为 基于实例的翻译引擎提供翻译实例。其次,双语对齐语料库也为挖掘各种机器翻译知识提供 了一个基础资源,例如可以基于双语对齐语料库挖掘词语和短语的对译知识,训练统计翻译 模型等等。同时,双语对齐语料库除在机器翻译领域的应用价值外,在语言教学和研究领域、 辞书自动编纂领域也有着重要的应用价值。 建设汉英

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档