1.关于机器翻译的思考姚天顺.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.关于机器翻译的思考姚天顺

关于统计机器翻译的思考 姚天顺 自然语言处理实验室 东北大学 tsyao@ 2004.7.11 1. 前言 有这么两条消息: 5月10日《参考消息》 “随着又有10个国家加入欧盟,欧盟现有20种官方语言。年度翻译预算增加到10亿美元。” 5月28日《参考消息》 “欧盟新通过一项议案,所有成员国在欧盟会议上的文件不得超过15页A4纸,以减轻翻译人员的工作量。” 机器翻译的现状和未来到底怎么样了? 有计算机的那一天就有机器翻译的研究。 计算机事业蓬勃发展,但机器翻译的道路至今仍然十分艰难。 上世纪的八十年代,特别是九十年代, 语料库语言学在计算语言学界兴起。 最近的五年到十年,机器学习方法又受到学术界 特别的重视,数学方法大量地引进了语言信息处理。 自然语言处理的研究是进了一大步, 但对于机器翻译而言,真实的效果在哪里呢? 回忆基于规则的机器翻译系统作为主流技术的时代, 不管怎么样?多少还出现过一些有市场价值的系统, 例如译星、华建和史晓东等的汉英翻译系统。 华建的机器翻译,居然取得了国内单项软件出口的最 高出售价。 欧洲和日本情况也是这样,当前主流的机器翻译还都 是基于规则的机器翻译系统。 基于语料库的机器翻译方法,一般说来可以分为两类: 一类是基于统计的机器翻译系统, 另一类和基于模板的机器翻译方法。 基于统计的机器翻译,简称为统计机器翻译。 统计机器翻译把源语言中任何一个句子都可能是目标语言中 某些句子相似,这些句子的相似程度可能都不相同。那么,一个 好的机器翻译系统就是那种能找到最相似句子的系统。 但是这样的汉外机器翻译系统在我们国家从来也没有出现 过。 1994年,IBM公司的A. Berger, P. Brown 等人发表了一个技术报 告,即著名的论文: “The candide System of Machine Translation。” 他们用统计方法,各种不同的对齐技术,给出了命名为Candide 的统计机器翻译系统. 利用汉莎语料库(Hansard corpus,英法双语语料库),总共 有?2,205,733 英法句对作为训练语料, 实现了国际上第一个较为著名的英语到法语的统计机器翻译系 统。 一开始,系统的成绩不错,整体的系统的译准率超过了基于 解释、转换、和生成的规则系统。 ARPA(美国国防部高级研究计划署)把这个 Candide 翻译 系统进行评测,并和国际上利用常规的规则系统构造的 SYSTRAN 机器翻译系统作比较,结果是, 流利程度 适当程度 时间比率率 1992 1993 1992 1993 1992 1993 SYSTRAN .466 .540 .686 .743? Candide .511 .580 .575 .670?? Transman .819 .838 .837 .850 .688 .625 Manual .833 .840?? Transman is the part of the Candide system used as a translation assis- tance tool, i.e.?a machine-aided translation system. 这个结果很了不起,在某种程度上推动了经验主义思潮更进一步向前 发展。 由于计算语言的复杂性,Candide系

文档评论(0)

dlmus + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档