改进的HMM应用于哈萨克语词性标注.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ComputerEngineeringandApplications计算机工程与应用 2010,46(36) 147 改进的HMM应用于哈萨克语词性标注 侯呈风,古丽拉 ·阿东别克 HOU Cheng—feng,Gulila·Altenbek 新疆大学 信息科学与工程学院,乌鲁木齐 830046 CollegeofInformationScienceandEngineering,XinjiangUniversity,Urumqi830046,China E—mail:jyhouchengfeng@126.corn HOU Cheng-feng.Gulila·Altenbek.Improved hidden M arkov models used in Kazakh part—o~speech tagging.Computer EngineeringandApplications.2010.46(36):147-149. Abstract:Part-of-Speech(POS)tagging ofKazakh isplaying a key role in naturallanguageinform~ionprocessing.Kazakh POS tagging isthe basisofsyntactic analysis,inform~ion retrievaland machine translation.Based upon thetraditionalHMM , computing ofHMM parameters,data—smoothing andprocess ofwordswhich are notlogged enable to improvecontextdepen— dence relationship.Use statisticalmethod to train Kazakh corpus,and then use Viterbialgorithm to implementPOS tagging. The experimentalresultsshow thatthe effectofPOS tagging ofimproved HMM isbetterthan traditionalHMM . Keywords:HiddenMarkovModels(HMM);Kazakh;part—o~speechtagging 摘 要 :哈萨克语的词性标注在 自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等 自然语言处理的 基础。在传统的HMM 的基础上改进了HMM模型参数的计算、数据平滑以及未登录词的处理方法,使之更好地体现词语的上下 文依赖关系。利用基于统计的方法对哈萨克语熟语料进行训练,然后用Viterbi算法实现词性标注。实验结果表明利用改进的 HMM 进行词性标注的效果 比传统的HMM 好。 关键词:隐马尔科夫模型;哈萨克语;词性标注 DOI:1O.3778~.issn.1002.8331.201O.36.040 文章编号:1002.833l(2010)36.0147.03 文献标识码:A 中图分类号 :TP391.1 1 前言 支,拼音文字,是黏着语类型;具有 自己独特的特点 ,不同于汉 在 自然语言中,词是语言的基本单位,是组成各种语言的 语 、英语 、维吾尔语等。目前哈萨克语的词性标注基本上采用 基础 。在词的处理过程中,词性 (POS)是词汇最重要 的特 基于规则和统计的方法 ,辅助以人工标注。本文对传统的隐 性。词性标注是实现 自然语言分析和理解的一个重要 中间环 马尔科夫模型进行了改进 ,使其能更好地体现词语的上下文 节,其任务是为文本中的每一个词标注一个正确的标记。在 依赖关系。 词性标注中出现的早期错误,将在后续处理链中被放大。例 如在机器翻译中,词性标注错误有时会导致错误地理解整句 2 HMM 的原理及词性标注 话。词性标注的正确率将直接影响计算机翻译系统的应用性 2.1 HMM 原理 能,从而最终影响用户对机器处理自然语言的应用,如信息抽 HMM(HiddenMarkovModel,隐

您可能关注的文档

文档评论(0)

jsntrgzxy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档