一个汉英机器翻译系统的计算模型与语言模型-中科院计算所自然语言.DOCVIP

  • 10
  • 0
  • 约5.77千字
  • 约 6页
  • 2018-12-02 发布于天津
  • 举报

一个汉英机器翻译系统的计算模型与语言模型-中科院计算所自然语言.DOC

一个汉英机器翻译系统的计算模型与语言模型-中科院计算所自然语言

一个汉英机器翻译系统的 计算模型与语言模型* * 本项目的研究受到863-306资助,合同号为863-306-03-06-2 刘 群+ 詹卫东++ 常宝宝++ 刘颖+ (+中国科学院计算技术研究所二室 北京100080) (++北京大学计算语言学研究所 北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理 机器翻译 中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴ 采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵ 开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶ 方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户可以轻松确定翻译出错的位置。 机器翻译系统可依据不同的标准进行分类,这些标准也刻划出本系统的一些基本特点: 规则方法与语料库方法 规则方法发展到今天,相对来说已比较成熟,但由于专家描述的规则知识通常颗粒度较大,不利于处理大量的细节,因而在处理大规模的开放语料时,遇到了难以克服的困难;而从预料库中获取的知识颗粒度较小,在自然语言处理的某些方面取得了成功,但纯粹基于语料库的的机器翻译系统,还没有比较成功的例子。本系统目前采用的是基于规则的技术,我们计划将其扩展成为一个规则方法与语料库方法相结合的系统。 转换方法与中间语言方法 从理论上说,在实现多种语言互译的机器翻译系统时,中间语言方法可以节省很多的工作量。但从已实现的系统来看,使用转换方法较易取得成功。本系统也采用转换方法。 确定性算法与不确定性算法 确定性算法的优点是算法较为简单,翻译速度快,缺点是不能提供回溯的能力,翻译过程任何一步的错误将导致整个翻译的失败。不确定算法刚好相反。本系统采用不确定性算法,翻译过程的每一步骤都是不确定的,都可以回溯。 二、计算模型 我们从系统结构、知识表示、翻译算法三方面来介绍我们所采用的计算模型。 管理调试界面使用界面知 识 库 子 系 统词典最终用户图 管理调试界面 使用界面 知 识 库 子 系 统 词典 最终用户 图1 汉英机器翻译系统总体结构 翻 译 子 系 统 语 言 模 型 各类 规则库 实例库 语言工作者 语言工作者 1、系统结构 系统总体结构如图1所示。 2、知识表示 机器翻译的过程可以看成是一个运用知识进行推理的过程。知识表示是这一过程的基础。我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。其中外部知识是存放于知识库之中,由语言工作者进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。 本系统的外部知识表示由知识库子系统进行处理。知识库包括一个语言模型、一部词典、多个规则库和一个实例库。 本系统设计的严格的语言模型起统帅作用,其中规定了本系统所使用的源语言和目标语言的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。所有知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。 整个系统使用一部双语词典。 多个规则库对应于翻译的各个步骤,每个步骤使用相应的规则库。每个规则库的具体格式各不相同,但基本上都采用“树结构+约束”的形式。在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述一些局部性的知识。因此我们特别强调词典的描述能力。例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规

文档评论(0)

1亿VIP精品文档

相关文档