汉蒙藏维语言翻译方法研究.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉蒙藏维语言翻译方法研究.doc

汉、藏、蒙、维多民族语言语音翻译方法研究 解国栋 曹文洁 宗成庆 徐波 中国科学院自动化所模式识别国家重点实验室,北京 100080,中国 E-mail:{gdxie,caowj, cqzong, xubo}@nlpr.ia.ac.cn Tel:+86-10 摘 要 汉语与少数民族语言之间机器翻译的研究对于促进少数民族地区经济文化发展具有很重要的意义,目前这方面可投入的人力物力是十分有限的。对于汉、藏、蒙、维语言之间互译来说,基于中间语言的翻译方法,是一种经济有效的途径。本文介绍了一种基于中间语义表示(IF)实现汉、藏、蒙、维多语言语音翻译的基本思想,并介绍了面向IF的鲁棒的汉语口语解析方法以及基于IF的汉语英语生成方法。 关键词:少数民族语言,中间语言,IF, 解析,生成 1. 引言 我国有56个民族,大多数的民族都有自己独特的语言。随着社会的发展,各民族之间的经济文化交流越来越频繁,在此过程中,语言的差异是一个客观现实,由此带来的相关问题,是制约少数民族地区经济文化发展一个重要因素,因此,有必要进行少数民族语言与汉语之间的多语言机器翻译研究,这对促进少数民族地区经济发展、促进各民族之间文化交流以及民族团结都具有重大的意义。另外,各个少数民族都有自己独有的风俗文化,对这些风俗文化进行研究、保护和开发,无论从社会还是经济上,都有着深远的意义,而语言是这些风俗文化最直接的载体,这也对语言翻译提出了要求。目前,少数民族语言的机器翻译研究,虽然取得了一定的成绩,但是,由于经济、文化、资源、历史等众多的原因,还停留在起步阶段,很多问题都有待进一步研究[12]。少数民族中,藏族、蒙古族和维吾尔族各自拥有本民族的语言,在自然语言处理方面的研究起步也比较早,有了一定的基础,而且这三个民族地区人口比较多,因此,有必要把汉、藏、蒙、维语言之间的机器翻译研究作为当前的少数民族语言机器翻译研究的一个主要任务。目前蒙古文机器翻译系统有王斯日古楞等人研制的英蒙机器翻译(English Mongolian Machine Translation,简称EMMT)系统,内蒙古大学那顺乌日图等研制的汉蒙机器翻译系统,这两个系统目前都尚处于研究阶段[12]。藏语的计算机处理目前的研究重点大致包括藏文编码标准及平台建设、藏语语法研究、分词标准、电子词典建设等阶段,也有一些机器翻译系统 [15]。关于维吾尔族语的计算机处理方面研究也主要集中在维吾尔语的编码标准及平台建设方面。 在诸多的机器翻译实现方法中,有一种基于中间语言的方法,这种方法利用一种人工制定的标准语言作为语言翻译的中介,即首先把源语言解析为中间语言的表示形式,然后再由这种中间语言生成目标语言。对于一个多语言翻译系统,如果采用转换的方法,则不同方向的翻译需要不同的翻译模块,比如英译汉和汉译英分别需要一个翻译模块。假设有N种语言需要进行互译,总共则需要N*(N-1)个翻译模块,而采用中间语言的方法,由于对每一种语言只需实现将该种语言翻译成中间语言和把中间语言翻译成该种语言这两个模块,对于N种语言之间的互译,总共只需要2N个翻译模块,这一过程如图 1所示,因此,采用基于中间语言的翻译方法进行多语言的互译,能够降低系统的复杂性,是一种经济有效的途径。 非基于中间语言的方法,包括基于规则的转换方法和基于语料库的统计方法。基于规则的方法,首先需要对源语言进行分析,然后根据目标语言的特点,把分析结果转换成目标语言。这一过程中,除了要对源语言进行各方面的研究外,还要对目标语言进行研究,需要懂源语言和目标语言的专业人员编写大量的规则和建立词典。而基于语料库的统计方法,则首先需要收集大量的双语语料,即一句源语言对应一句目标语言,然后对双语语料进行对齐,在此基础之上,进行统计模型的训练。总之,无论是基于规则的转换方法还是基于语料库的统计方法,都需要投入比较多的人力和物力,而少数民族语言的机器翻译研究,受到各种条件的限制,可投入的资源特别是人力是很有限的, 因此,采用中间语言作为中介进行翻译,每个民族只需负责把本民族语言转换为中间语言和把中间语言产转换为本民族语言,就可以实现本民族语言和其他语言的互译,这在一定程度上,能够节省人力和物力,不失为一种可行的途径。 图 1 转换方法和中间语言方法所需不同翻译模块的比较 早期的中间语言主要有法国的CETA实验室的“枢轴语言”(pivot language),该中心利用它进行了数学、物理文献方面的俄-法翻译系统[16], 2000年日本联合国大学的Uchida提出了一种UNL(Universal Network Language)语言[19],用来进行多种语言的翻译。成立于1990年的成立C-STAR(Consortium of Speech Tra

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档