- 6
- 0
- 约 19页
- 2017-04-10 发布于上海
- 举报
基于形態信息的汉蒙翻译模型和语言模型构造方法研究
基于形态信息的汉蒙翻译模型和语言模型构造方法研究
中科院合肥智能所 乌达巴拉
2008年10月9日
一、存在的问题及解决方案
二、国内外研究现状
三、引入语言信息构造翻译模型
四、词素级别的语言模型的构造
五、总结与展望
目 录
一、存在的问题及解决方案
1. 汉蒙统计机器翻译中存在的问题
(1)数据稀疏问题比较严重。
(2)译文结果在词形变化方面产生的错误比较明显和突出。
一、存在的问题及解决方案
(1)由于语料库缺乏,导致了数据稀疏问题。统计机器翻译的基础是语料库。相比于汉英等已经具有比较长的研究时间的方向,汉蒙语料比较稀缺。目前的几万条的实验资源是远远不能满足当前统计机器翻译的需要的。
一、存在的问题及解决方案
(2)由于蒙古语具有黏着特性,与汉语相比,形态变化非常丰富且复杂,一个词干之后可以层层缀接不同的构形词缀构成不同的词形。因此,译文结果容易在词形变化方面产生错误。
一、存在的问题及解决方案
词形变化引起的错误主要集中表现在以下两点:
1)蒙古语动词(除了一些没有词形变化的特殊动词,如ALAG_A,BVI)在句子环境中都会发生词形变化,以表现式、态、体等的信息,而统计机器翻译结果并不总能正确表现蒙古语动词的形态变化;例如,在不考虑蒙古语构形词缀信息的情况下,统计机器翻译结果中会出现如下错误:
BI(我)MARGASI(明天)BEJING-D
您可能关注的文档
- 圖书借阅管理系统.ppt
- 圖书之空间需求.ppt
- 圖上发生什么事了?.ppt
- 圖书续借说明.ppt
- 圖书资讯服务.ppt
- 圖上发生什么事了.ppt
- 圖书选择与采访.ppt
- 圖书编目方式.ppt
- 圖书馆-回顾与展望-.ppt
- 圖上距离和实际距离的比,叫做这幅图的比例尺..ppt
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
原创力文档

文档评论(0)