基于形態信息的汉蒙翻译模型和语言模型构造方法研究.pptVIP

  • 6
  • 0
  • 约 19页
  • 2017-04-10 发布于上海
  • 举报

基于形態信息的汉蒙翻译模型和语言模型构造方法研究.ppt

基于形態信息的汉蒙翻译模型和语言模型构造方法研究

基于形态信息的汉蒙翻译模型和语言模型构造方法研究 中科院合肥智能所 乌达巴拉 2008年10月9日 一、存在的问题及解决方案 二、国内外研究现状 三、引入语言信息构造翻译模型 四、词素级别的语言模型的构造 五、总结与展望 目 录 一、存在的问题及解决方案 1. 汉蒙统计机器翻译中存在的问题 (1)数据稀疏问题比较严重。 (2)译文结果在词形变化方面产生的错误比较明显和突出。 一、存在的问题及解决方案 (1)由于语料库缺乏,导致了数据稀疏问题。统计机器翻译的基础是语料库。相比于汉英等已经具有比较长的研究时间的方向,汉蒙语料比较稀缺。目前的几万条的实验资源是远远不能满足当前统计机器翻译的需要的。 一、存在的问题及解决方案 (2)由于蒙古语具有黏着特性,与汉语相比,形态变化非常丰富且复杂,一个词干之后可以层层缀接不同的构形词缀构成不同的词形。因此,译文结果容易在词形变化方面产生错误。 一、存在的问题及解决方案 词形变化引起的错误主要集中表现在以下两点: 1)蒙古语动词(除了一些没有词形变化的特殊动词,如ALAG_A,BVI)在句子环境中都会发生词形变化,以表现式、态、体等的信息,而统计机器翻译结果并不总能正确表现蒙古语动词的形态变化;例如,在不考虑蒙古语构形词缀信息的情况下,统计机器翻译结果中会出现如下错误: BI(我)MARGASI(明天)BEJING-D

文档评论(0)

1亿VIP精品文档

相关文档