汉英机器翻译的难点分析.doc

  1. 1、本文档共1页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉英机器翻译的难点分析.doc

汉英机器翻译的难点分析 刘群 中国科学院计算技术研究所 北京100080 liuqun@mtgroup.ict.ac.cn 俞士汶 北京大学计算语言研究所 北京 100871 yusw@pku.edu.cn 摘 要 汉英机器翻译研究滞后于英汉机器翻译的原因在于汉英机器翻译具有一些特殊的困难。本文根据作者开发汉英机器翻译系统的实际经验,对汉英机器翻译所特有的一些难点,从汉语的语法分析和汉语到英语的转换两个方面进行了较为深入的分析,并对其中的一些难点探讨了可能的解决办法。 关键词 自然语言处理 中文信息处理 机器翻译 算法 Discussion on the Difficulties of Chinese-English Machine Translation Liu Qun Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080 liuqun@mtgroup.ict.ac.cn Yu Shiwen Institute of Computational Linguistics,Peking University,Beijing 100080 yusw@pku.edu.cn Abstract There are special difficulties in Chinese-English Machine Translation. This paper discusses the difficulties in Chinese parsing and Chinese-English transform and gives some proposals. KeyWords Natural Language Processing, Chinese Information Processing, Machine Translation 1 引言 近十几年来,机器翻译研究在各方面都取得了很大的发展。多种新型的语法体系的产生,统计方法的运用,使机器翻译研究出现了一个新的高潮。在软件市场上,由于计算机硬件性能的迅速提高和价格的不断下降,使机器翻译软件达到了初步实用的水平。在我国,外汉机器翻译系统,特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。然而,汉外机器翻译,特别是汉英机器翻译的研究却进展缓慢,离实用化还有相当的距离。[1]中给出的数据可以说明这一点。从目前的软件市场上也可以看出,比较成熟、达到初步实用化水平的英汉机器翻译系统已有多个,竞争相当激烈,而类似的汉英机器翻译系统却很少,而且几乎还没有一个能达到初步实用的水平。 研究人员普遍认为,汉外机器翻译的难度要远远大于外汉机器翻译。我们从九三年起开始研制一个汉英机器翻译系统[2],对这一点有着比较深切的体会。在汉英机器翻译中,除了一般机器翻译(如英汉机器翻译)普遍存在的一些困难(如一词多义、结构歧义、语义歧义等等)之外,还存在一些特殊的困难。这些难点分布于翻译的各个阶段,包括汉语的分析和汉语到外语的转换和生成,不过最主要的还是汉语的分析。 关于汉语分析困难的原因,很多人都从不同的角度做过研究,如[6]中就有深入的分析。该文中作者提出计算机分析汉语的特殊困难主要在于以下几个方面:1.汉语同一词类担任多种语法成分且无形态变化;2.汉语句子的构造原则与短语的构造原则基本一致;3.汉语中的虚词;4.汉语的语序;5.汉语的书写习惯。其中前两个特点关系到对汉语语法的全局的认识,而造成这两个特点的根源都在于汉语词类无形态变化。 我们认为,造成汉英机器翻译困难的原因是多方面的。本文以我们的实践经验为基础,从汉语的语法分析和汉语到英语的转换两个方面,对汉英机器翻译所特有的难点进行较为深入的分析,并试图提出可能的解决办法。 2 汉语语法分析的难点 语法分析一般都分为词法分析和句法分析两个阶段。以下我们分别进行分析。然后再探讨造成这些困难的原因以及可能的解决办法。 2.1 词法分析的难点 2.1.1 切分 我国计算语言学界对汉语切词问题研究比较透彻,很多切词系统的正确率都可以达到97%甚至更高。然而,对于机器翻译系统来说,这个问题并不是已经完全解决了。这是因为,机器翻译系统一般是以句子为单位进行处理的,一个句子中只要有一处出现切词错误,整个句子就不可能得到正确的译文。 假设一个切词系统的错误率为2%,在一篇1000词的文章中,大约出现20处切词错误。又假设文章中的句子平均长度为5个词,整篇文章有大约200个句子。那么在这些切词错误均匀分布(不过分集中)的情况下,这20处切词错误就可能导致大约20个句子的翻译错误,错误率约为10%。换句话说,切词阶段的错误率在翻译的

文档评论(0)

gsgtshb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档