基于trigger对的长距离蒙古语语言模型的改进Katz平滑技术.pdfVIP

基于trigger对的长距离蒙古语语言模型的改进Katz平滑技术.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于trigger对的长距离蒙古语语言模型的改进Katz平滑技术.pdf

2010年 1月 内蒙古大学学报 (自然科学版) Jan. 2010 第 41卷第 1期 JournalofInnerMongoliaUniversity V0l_4l No.1 文章编号 :100O—l638(2O1O)O1—0107—04 基于trigger对的长距离蒙古语语言模型的 改进Katz平滑技术 刘志文 ,侯宏旭 ,宋美娜 ,李沙茹拉 (1.内蒙古大学计算机学院,呼和浩特 010021; 2.内蒙古大学电子信息工程学院,呼和浩特 010021) 摘要:数据平滑技术主要是用来解决统计语言模型在实际应用中数据稀疏问题,它是语言建 模的核心技术 ,Katz平滑方法是应用最广泛 的方法之一.本文对Katz平滑算法作 了改进 ,使之 应 用于trigger对的平滑 ,并在汉语一蒙古语机器翻译系统实现了该算法 ,实验结果表 明该技 术可 以提高翻译效果. 关键词 :平滑技术 trigger对;蒙古语;语言模型 中图分类号:TP391.41 文献标志码:A 目前 ,统计语言模型技术已是当前语言信息处理的主流技术之一 ,它在机器翻译、文字处理、文字 检索等领域有着广阔的应用.作为机器翻译的一项基础性工作,蒙古语语言模型的建立相对于汉语、 英语等各种语言文字在语言模型则不能简单照搬n—gram技术来进行.本文作者针对蒙古语语言的特 点提出了一种新的蒙古文统计语言模型即基于trigger对 的长距离蒙古语语言模型.本文重点讲述针 对该模型有实际中应用 中数据稀疏问题 ,对传统的Katz平滑技术进行改进 ,对语言模型中的trigger 对做了平滑 ,并应用于汉一蒙机器翻译系统. 1 基于trigger对的蒙古语语言模型 1.1 n-gram语言模型及 3-gram n-gram模型认为 ,自然语言的知识可以用连续 的符号序列(字、词、词性标注、义类标注)的概率 来表示.即设句子W=w ,W ,…,硼 ,则可 以用P( ,W ,…,W )表示P出现的概率 ( 为第 个字、 词、词性标记或义类标iE),为计算P(叫 ,W:,…,W),如果认为第i个符号的出现只与紧接着的第 i个 符号前面的很少的 一1个符号的出现情况有关 ,则 “: P( )一P(w1,W2,…,硼)一 P(w1)P(2f1)P(叫3}锄1W2)…P(w I1…W~1) 由于计算量和实验条件等上的原因,目前实验上绝大多数都以3-gram方法为主. 1.2 蒙古语特点及 3-gram处理上的问题 蒙古语属于黏着型语言.蒙古语 的构词,构形都是通过在词干后缀接不同的词尾而实现的,并且 它们还可以层层缀接 ,这使得蒙古语词法形态变化丰富且复杂.现代蒙古语语料库存、当前的标注 目 标是:标注词干信息和构形附加成分的类型信息. 蒙古语的构形 附加成份包括数、格、领属、级范畴以及数词变化形式 ;动词的式、态、体范畴和形动 词、副动词变化形式. - 收稿 日期 :2008—05—15 基金项 目:内蒙古 自然基金项 目“蒙古语文本语言模型的构建研究”(20o6O7O1O8O5)资助 作者简介 :刘志文 (1982一),男,内蒙古凉城人 ,硕士.主要研究方 向:信息处理. 1O8 内蒙古大学学报 (自然科学版) 蒙古语的构形附加成分负载着非常丰富的语法信息,所以只对整词 (即词于+构形附加成分)、或 者词干进行词性标注,就会丢失大量语法信息,而这些信息在蒙古语语言模型的构建上有着举足轻重 的地位. 所以有必要对蒙古语词干、词缀进行统计来得到语言模型信息. 对汉语、英语等作3-gram处理 ,那么语言信息可以反映出3个字之间的信息;而蒙古语在进行了 词干、词缀切分后 ,依然进行3-gram,那么语言信息可以反 映出的可能是2个字甚至 1个字的信息 ,为 反映长距离信息,作者使用了trigger对来处理长距离上的信息. 1.3 trigger对 如 果词 A 的出现使得后文 中词 B出现 ,则称 (A—

文档评论(0)

kittymm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档