4_机器翻的译方法.pptVIP

  • 5
  • 0
  • 约1.02万字
  • 约 56页
  • 2017-01-21 发布于北京
  • 举报
基于规则的一类方法在机器翻译的发展中确实起了非常重要的作用,但是,随着研究的深入,研究者们发现人工确定的有限规则难以正确翻译大规模的现实语句。因此,人们不断地寻找新的方法,从而产生了基于语料库的一类方法。所谓语料库,就是把各类在现实当中使用的真实文本收集在一起,并不对原来的语句进行修饰润色,这样构成的集合称为语料库。显然,机器翻译只有对语料库中真实句子进行翻译研究,才有可能建立起满足现实要求的机器翻译系统。早期的语料库主要是为自然语言研究提供众多的实例,如用于词频统计,以后逐渐发展为对其进行大规模的语法信息标注,如词性标注、句法符号标注等。这样,对语料库进行收集、整理、加工的研究诞生了一门新的语言学分支,就称为语料库语言学。 为机器翻译服务的语料库应该是源语言和目标语言双语对照的双语语料库,或者是多种自然语言对照的语料库。在研究中,一方面可以直接使用语料库进行机器翻译中的分析、转换和生成,另一方面可以间接使用语料库,将其作为获取翻译知识和统计知识的依据。 十多年来,对机器翻译的多方面研究使许多人认为,好的机器翻译系统应采用混合方法,因为就目前情况看,无论采用何种方法实现的机器翻译系统,都没有混合方法质量好。 完全实例的翻译就是对待翻译的源语句通过翻译实例数据库检索出要翻译的目标语句,翻译的操作就是检索。 这种方法用已经存在的翻译实例(双语文本)作为知识源。 工作之初,选择了一些常用的双语翻译实例输入,构造成一个特别的模块(翻译实例数据库)。 4.2 基于实例的机器翻译改进方法 4.2.1 完全实例的翻译 例如:在汉译英翻译实例数据库中有 (1)源 语 句 水的热容量比沙大 目标语句 Water has a greater heat capacity than sand. (2)源 语 句 太阳离我们比其它任何恒星都更近一些 目标语句 The sun is closer to us than any of the other stars. (3)源 语 句 对于生物来说,没有什么东西比太阳更重要了。 目标语句 There is nothing more important to life than the sun. 之后,不断积累已经译好的文本作为机器翻译的样本。当然,如果所要翻译的语言是由有限个常用句子构成,这种处理方法的实用性会大一些;但是,每一种自然语言都是由无限多个句子构成,计算机永远不可能完全存储,因此这种处理方法的实用性很小。 虽然我们对完全实例的翻译并不寄于厚望,但我们的翻译系统仍然建立了这一模块,收集的是一些成熟的、常用的双语翻译实例。 这样做的理由是, 完全实例的翻译处理方法省略了自动分词、词义消歧、句法分析、语义分析、译文转换等许多步骤。对具体待翻译的多个源语句来说,这种翻译(检索)即使部分成功,目的也达到了,因为它的译文是高质量的,与人工翻译一致;不成功,再采取二、三种处理方法。 当然,要这样做,还应该采用高效的映射式检索算法,才能保证机译速度. 完全实例的翻译译文是高质量的,与人工翻译一致,但它的成功率很低,而且并不与翻译实例数据库的双语实例句数量成正比。 如果把完全实例扩充为句型间的转换翻译,将提高翻译的成功率。 句型转换的翻译是把源语句的单词和句型结构映射到译文相对应的单词和句型结构。 双语对译的核心是句型结构的表达式相同,所以我们建立了双语句型结构表达式集合模块。 实例句型转换的翻译主要有两种: 4.2.2 实例句型转换的翻译 第一种 句型转换顺序相同的翻译 例 如汉译英中, (1)“他们学习英语”和“我们研究汉语”句型完全相同,句型表达式只需建立一个:rvn;对应英文的语序也完全系相同:rvn;译文是:They study English. We research Chinese. (2)“他是一个学生”和“我是一个教师”句型完全相同,句型表达式只需建立一个:rvmqn;对应英文的语序也完全系相同:rvmqn;译文是:He is a student. I am a teacher. (3)“他有许多英语书”和“我有许多科技书”句型完全相同,句型表达式只需建立一个:rvdn(1)n(2);对应英文的语序也完全系相同:rvdn(1)n(2);译文是:He had

文档评论(0)

1亿VIP精品文档

相关文档