基于形態信息的汉蒙翻译模型和语言模型构造方法研究.pptVIP

下载本文档

6
0
约 19页
2017-04-10 发布于上海
举报

基于形態信息的汉蒙翻译模型和语言模型构造方法研究.ppt

基于形態信息的汉蒙翻译模型和语言模型构造方法研究

基于形态信息的汉蒙翻译模型和语言模型构造方法研究中科院合肥智能所乌达巴拉 2008年10月9日一、存在的问题及解决方案二、国内外研究现状三、引入语言信息构造翻译模型四、词素级别的语言模型的构造五、总结与展望目录一、存在的问题及解决方案 1. 汉蒙统计机器翻译中存在的问题（1）数据稀疏问题比较严重。（2）译文结果在词形变化方面产生的错误比较明显和突出。一、存在的问题及解决方案（1）由于语料库缺乏，导致了数据稀疏问题。统计机器翻译的基础是语料库。相比于汉英等已经具有比较长的研究时间的方向，汉蒙语料比较稀缺。目前的几万条的实验资源是远远不能满足当前统计机器翻译的需要的。一、存在的问题及解决方案（2）由于蒙古语具有黏着特性，与汉语相比，形态变化非常丰富且复杂，一个词干之后可以层层缀接不同的构形词缀构成不同的词形。因此，译文结果容易在词形变化方面产生错误。一、存在的问题及解决方案词形变化引起的错误主要集中表现在以下两点： 1)蒙古语动词（除了一些没有词形变化的特殊动词，如ALAG_A，BVI）在句子环境中都会发生词形变化，以表现式、态、体等的信息，而统计机器翻译结果并不总能正确表现蒙古语动词的形态变化；例如，在不考虑蒙古语构形词缀信息的情况下，统计机器翻译结果中会出现如下错误： BI（我）MARGASI（明天）BEJING-D

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于形態信息的汉蒙翻译模型和语言模型构造方法研究.pptVIP