- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ComputerEngineeringandApplications计算机工程与应用 2010,46(36) 147
改进的HMM应用于哈萨克语词性标注
侯呈风,古丽拉 ·阿东别克
HOU Cheng—feng,Gulila·Altenbek
新疆大学 信息科学与工程学院,乌鲁木齐 830046
CollegeofInformationScienceandEngineering,XinjiangUniversity,Urumqi830046,China
E—mail:jyhouchengfeng@126.corn
HOU Cheng-feng.Gulila·Altenbek.Improved hidden M arkov models used in Kazakh part—o~speech tagging.Computer
EngineeringandApplications.2010.46(36):147-149.
Abstract:Part-of-Speech(POS)tagging ofKazakh isplaying a key role in naturallanguageinform~ionprocessing.Kazakh
POS tagging isthe basisofsyntactic analysis,inform~ion retrievaland machine translation.Based upon thetraditionalHMM ,
computing ofHMM parameters,data—smoothing andprocess ofwordswhich are notlogged enable to improvecontextdepen—
dence relationship.Use statisticalmethod to train Kazakh corpus,and then use Viterbialgorithm to implementPOS tagging.
The experimentalresultsshow thatthe effectofPOS tagging ofimproved HMM isbetterthan traditionalHMM .
Keywords:HiddenMarkovModels(HMM);Kazakh;part—o~speechtagging
摘 要 :哈萨克语的词性标注在 自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等 自然语言处理的
基础。在传统的HMM 的基础上改进了HMM模型参数的计算、数据平滑以及未登录词的处理方法,使之更好地体现词语的上下
文依赖关系。利用基于统计的方法对哈萨克语熟语料进行训练,然后用Viterbi算法实现词性标注。实验结果表明利用改进的
HMM 进行词性标注的效果 比传统的HMM 好。
关键词:隐马尔科夫模型;哈萨克语;词性标注
DOI:1O.3778~.issn.1002.8331.201O.36.040 文章编号:1002.833l(2010)36.0147.03 文献标识码:A 中图分类号 :TP391.1
1 前言 支,拼音文字,是黏着语类型;具有 自己独特的特点 ,不同于汉
在 自然语言中,词是语言的基本单位,是组成各种语言的 语 、英语 、维吾尔语等。目前哈萨克语的词性标注基本上采用
基础 。在词的处理过程中,词性 (POS)是词汇最重要 的特 基于规则和统计的方法 ,辅助以人工标注。本文对传统的隐
性。词性标注是实现 自然语言分析和理解的一个重要 中间环 马尔科夫模型进行了改进 ,使其能更好地体现词语的上下文
节,其任务是为文本中的每一个词标注一个正确的标记。在 依赖关系。
词性标注中出现的早期错误,将在后续处理链中被放大。例
如在机器翻译中,词性标注错误有时会导致错误地理解整句 2 HMM 的原理及词性标注
话。词性标注的正确率将直接影响计算机翻译系统的应用性 2.1 HMM 原理
能,从而最终影响用户对机器处理自然语言的应用,如信息抽 HMM(HiddenMarkovModel,隐
您可能关注的文档
- 对民法公平原则的思考——谈郑州李凯强被判赔7.9万一案.pdf
- 对民族地区舆论引导工作的几点思考.pdf
- 对某院200例消化性溃疡的内科治疗效果探究.pdf
- 对农村中小学英语教学的几点思考.pdf
- 对厦门地区架空输电线路的运行维护.pdf
- 对商业银行内部审计专业化建设的探析.pdf
- 对涉身哲学的理性观的反思.pdf
- 对市政道路超重车辆进行管理处罚应把握的问题和环节.pdf
- 对水泥砼路面预防性养护的相关探讨.pdf
- 对铁路施工企业财务风险若干问题的思考.pdf
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
文档评论(0)