汉语词与蒙古语词干对齐与词语评分方法语料处理.ppt

汉语词与蒙古语词干对齐与词语评分方法语料处理.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语词与蒙古语词干对齐与词语评分方法语料处理

中国科学院西安光机所2000年度工作总结 基于形态信息的汉蒙翻译模型和语言模型构造方法研究 一、存在的问题及解决方案 1. 汉蒙统计机器翻译中存在的问题 (1)数据稀疏问题比较严重。 (2)译文结果在词形变化方面产生的错误比较明显和突出。 一、存在的问题及解决方案 (1)由于语料库缺乏,导致了数据稀疏问题。统计机器翻译的基础是语料库。相比于汉英等已经具有比较长的研究时间的方向,汉蒙语料比较稀缺。目前的几万条的实验资源是远远不能满足当前统计机器翻译的需要的。 一、存在的问题及解决方案 (2)由于蒙古语具有黏着特性,与汉语相比,形态变化非常丰富且复杂,一个词干之后可以层层缀接不同的构形词缀构成不同的词形。因此,译文结果容易在词形变化方面产生错误。 一、存在的问题及解决方案 词形变化引起的错误主要集中表现在以下两点: 1)蒙古语动词(除了一些没有词形变化的特殊动词,如ALAG_A,BVI)在句子环境中都会发生词形变化,以表现式、态、体等的信息,而统计机器翻译结果并不总能正确表现蒙古语动词的形态变化;例如,在不考虑蒙古语构形词缀信息的情况下,统计机器翻译结果中会出现如下错误: BI(我)MARGASI(明天)BEJING-DU(北京)0CIBA(去)。 一、存在的问题及解决方案 2)蒙古语译文中体词变形的错误,如格附加成分的缺乏、冗余以及名词复数形式无变形等。 例如, 我和他去。BI TEGUN-TAI C0G 0CIN_A. 他和我去。TERE NADA-TAI C0G 0CIN_A. 因此,从形态缺乏的语言到形态丰富语言的翻译比反方向的要难。 一、存在的问题及解决方案 2. 解决方案 在统计机器翻译的模型构造过程中引入 语言信息。 利用汉语局部依存关系 利用蒙古语形态信息 二、国内外研究现状 近年来,将语言信息加入到统计模型中的方法研究,是国内外学者关注的热点之一。 主要是利用句法信息和形态信息。 更多的研究是从形态变化丰富的语言到形态变化缺乏的语言。 二、国内外研究现状 美国南加州大学Kenji Yamada Kevin Knight等人分别在2001年和2003年提出了基于句法的从源语言(汉语)句法树到目标语言(英语)串的翻译模型和目标语言(英语)句法树的语言模型; 中国科学院计算技术研究所在这些基础上扩展为串到树、树到树等多种模型,并应用到汉英统计机器翻译中,取得了比较好的效果。 二、国内外研究现状 德国S Nie?enH Ney(2004)利用德语形态句法信息对源语言料库进行重建,并构造了基于层次的词典模型(hierarchical lexicon model),借此提高了德语到英语的词对齐效果。 美国Goldwater McClosky(2005)在捷克语到英语的统计机器翻译中,利用捷克语形态信息提高了基于词的翻译模型的准确性。 美国Yang Kirchhoff(2006)针对形态丰富的语言,提出了基于分层回退模型的短语统计翻译方法(Phrase-Based Backoff Models for Machine Translation),利用源语言形态信息构造了分层回退模型,解决翻译模型(Translation Model)中未出现词的翻译问题,并以德语和芬兰语作为源语言,英语作为目标语言做了相应的实验,提高了翻译结果。 三、引入语言信息构造翻译模型 翻译模型构造研究方案主要包括: (1)汉语词与蒙古语词干对齐与词语评分; (2)连续短语对抽取和短语评分方法; (3)非连续短语的抽取方法。 三、引入语言信息构造翻译模型 (1)汉语词与蒙古语词干对齐与词语评分方法: 语料处理:汉语分词、词性标注以及依存关系分析; 蒙古语语料进行形态分析; 训练:利用Giza++,抽取汉语词与蒙古语词干的交集,并在交集基础上,扩展邻居集(交集八个方向的邻居的集合),再求遗失集(这些对齐点在并集中但不在交集和邻居集中,且该点所在的行或列没有其他的词语对齐),最后得到汉蒙双向词语对齐提炼结果。 采用最大似然估计法,计算词语的翻译概率,进行词语评分。 三、引入语言信息构造翻译模型 (2)连续短语对抽取和短语评分方法: 在Och连续短语对抽取思想的基础上,通过如下4条限制条件进行扩展。 a. 短语内的单词在原来句子中的位置必须连续; b. 双语短语必须与对齐矩阵相容,即根据源语言句子和目标语言句子的对齐矩阵,源语言短语中的词语或者对齐到NULL,或者对应的目标语言词语必须在它所对应的短语中,反之亦然; 三、引入语言信息构造翻译模型 c. 在词语对齐矩阵中,如果单行(列)的词语存在不连续的对齐,但是这些不连续是由多个连续片断组成的(称之为局部连

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档