基于HMM的汉语词性标注及其改进.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HMM的汉语词性标注及其改进 摘 要 词性标注是自然语言处理中一个具有重要意义的研究方向,涉及的应用领域非常广泛在信息处理范畴内起着重要的基础性作用,词性标注的效果直接影响着基于标注结果的各种信息处理的准确度,诸如语法分析、语音识别、文本分类、文本语音转换、信息检索、机器翻译等。词性标注的实现过程中存在着一些难度,如兼类词歧义处理、未登录词处理,以及专有名词的处理等。由于汉语本身的特点以及汉语言学研究现状的限制,汉语词性标注就更加困难和复杂。 词性标注的方法有很多,大体上可以归为两类,基于规则的方法和统计的方法,而基于隐马尔可夫模型(HMM)的词性标注正是统计方法的典型例子。虽然HMM在词性标注中的应用已经非常成熟,但如何提高兼类词、未登录词的标注准确率依旧是基于HMM的词性标注研究的重点。本文在标记好的汉语语料库《人民日报(1998年1月)》的基础上,建立二阶隐马尔可夫模型(HMMZ),改进针对未登录词的标注,对模型进行训练、测试、评估,从而实现了汉语词性标注。具体如下: (l)由于语料库的选取在词性标注效果中起着重要的影响作用,在测试前对语料库进行了预处理,去除了二级标注和专有名词标记符号(保留专有名词及其词性标注),来提高实验的准确率。 (2)一般的HMM在进行词性标注时仅仅依靠前一个词的词性来估计当前词汇的词性,基于语言学知识的考虑,这种方法对上下文语义信息的提取上不够详尽。于是提出了建立HMMZ的思想,来增加对_上下文语义信息的利用,进而提高词性标注效果的准确度。在建立HMMZ时,对训练数据得到的状态转移概率进行了平滑处理;同时,根据测试中实际情况,修正了观测概率的获取方法;井对未登录词进行了处理,以便进一步保证实验的准确率。 (3)在测试中,传统的Viterbi算法己不能适应改进后的HMMZ,于是对Viterbi算法进行了改进和拓展,使其符合修改后的HMMZ的需要。经过对一万词汇分别在26个标注集和39个标注集的训练语料下进行开放测试,证明本文改进后的HMMZ比一般的HMM、HMMZ标注效果好。本文最后对词性标注发展前景进行了展望。 关键词:词性标注、隐马尔可夫模型、二阶隐马尔可夫模型、Viterbi算法 目 录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc312484434 摘 要 PAGEREF _Toc312484434 \h 1 HYPERLINK \l _Toc312484435 第一章 绪论 PAGEREF _Toc312484435 \h 2 HYPERLINK \l _Toc312484436 1.1引言 PAGEREF _Toc312484436 \h 2 HYPERLINK \l _Toc312484437 1.2课题研究背景和意义 PAGEREF _Toc312484437 \h 3 HYPERLINK \l _Toc312484438 1.2.1研究背景 PAGEREF _Toc312484438 \h 3 HYPERLINK \l _Toc312484439 1.2.2研究目的与意义 PAGEREF _Toc312484439 \h 3 HYPERLINK \l _Toc312484440 1.3词性标注的发展史 PAGEREF _Toc312484440 \h 4 HYPERLINK \l _Toc312484441 第二章 隐马尔可夫模型及其相关算法 PAGEREF _Toc312484441 \h 5 HYPERLINK \l _Toc312484442 2.1隐马尔可夫模型 PAGEREF _Toc312484442 \h 5 HYPERLINK \l _Toc312484443 2.1.1隐马尔可夫模型的概念 PAGEREF _Toc312484443 \h 5 HYPERLINK \l _Toc312484444 2.1.2隐马尔可夫模型的应用 PAGEREF _Toc312484444 \h 7 HYPERLINK \l _Toc312484445 2.2 Viterbi算法 PAGEREF _Toc312484445 \h 9 HYPERLINK \l _Toc312484446 2.3前向一后向算法 PAGEREF _Toc312484446 \h 9 HYPERLINK \l _Toc312484447 第三章 词性标注及其相关研究 PAGEREF _Toc312484447 \h 11 HYPERLINK \l _Toc312484448 3.1.词性标注的方法 PAGEREF _Toc312484448 \h 11 HYPERLINK

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档