基于HMM的汉语词性标注及其改进-计算机应用技术专业论文.docxVIP

下载本文档

10
0
约5.79万字
约 64页
2019-01-04 发布于上海
举报
版权申诉

基于HMM的汉语词性标注及其改进-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HMM的汉语词性标注及其改进-计算机应用技术专业论文

太原理 L大学硕 J:研究生学位论文取得了值得芮定的成绩。但这项研究工作不会停止，它仍然有着研究空间和应用前景。 1.2. 2 研究目的与意义 HMM 是在马尔可夫模型的基础上变形应用而来，最早于 1957 年被提出181 HMM 在统计学习技术中占据着不可动摇的地位，主应用于语音处理技术、词性标注和信息提取中e 目前， HMM 也被引入到文本分类、信息压缩、模式识别 [9) 、故障诊断等领域。 HMM 是词性标注研究中基于统计方法的典型应用，HMM 的灵活性，给词性标注的研究带来了方便。随着 HMM 研究的不断深入，各种基于一般 HMM 而i进行的改进、演变、扩展方法层 :B不穷，为词性标注效果的改进注入了新的活力。随着词性标注的应用覆盖面不断增加，汉语词性标注的研究也得到了广泛关注。汉语词性标注对汉语i在料库研究、机器翻译、信息检索等都具有重要意义。具体来说，它给语言学的深入学习打下了结实的基础:为深层次的自然语言文本信息处理准备资料: 能从经过词性标注处理的文本中提取词类信息和词汇的词性标注信息。 1.3 词性标注的发展史国外很早就开始了英文自动词性标注研究，到日前己经达到昌盛的阶段，不同的改进方法各具风骚，大体可以分为以下几个阶段: (1)上世纪五十年代末，出现了最早的词类指派(也就是现在所称的词性标注 ) 算法，它是 ZeJling Harris[I O-l l)的转换和话语分析课题 (Transfonnation and Discourse Analysis Project ，简称 TDAP ) 的剖析程序的一个部分。 TDAP 使用了 14 条规则进行词性歧义消除，用到的词性标记序列是捕后所有算法的雏形。 (2) 上肚纪六十年代初，在丁 DAP 后，Klein and Simmonsl12)提出了由词典、形态分析器和土下末歧义消解器工部分组成的计算语、法编码器 (Computational Grall1mar Coder ，简称CGC) 。运行时，一个单词通过词典和形态分析器后产生候选的词性集合，运用包含 1500 条上下文规则的规则集来消除歧义。 )(3)到了七十年代初，基于规则的标注方法迅速崛起，最典型的就是 TAGGITI 13) 系统。它是由 Greene 和 Rubin 于 1971 年在Klein and Simmons 的基础上提出的。与 CGC 相比，TAGGIT 扩大了词典规模，增加了标记集个数。 TAGGlT被用来标记 Brown 语料库，正确率达到 77%(14 。 ) (4) 七十年代末到八十年代初，基于统计的标注方法开始在经验主义方浩思潮的太原}..lll汇大学硕士例:究生学位论文影响 F活跃起来。随着 Lancaster-OslolBcrgen ( LOB) 115J 的编制成功， CLAWS 势法116J ( Marshall ， 1 983. 1987; Garside，1 987) 浮出水面。它是一个概率算沽，近似于 HMM 标校方法。 CLAWS 算法使用标记的二元语法概率，徊不储存每个标记的单词似然度，而是给taglword (标记单词 )标上 rare (罕用)， infrequent (低频〉或 nonna lJy frequent (jf常额度〉这样的等级符号。 Church -f J 988 年提出了接近千完全 HMM 标注$1.:法的 PARTS 概率标注算法!l7]，它是对 CLAWS 算法思想的扩充，采用了 Viterbi 算法来找出标i己序列。 (5)到了九十年代，基于统计的方法卅始在词性本J;注舞台 l.扮演主角。研究有在标江系统巾明确使用了 HMM ，而且常与 EM 算法结合运用，包括使用变长马尔可夫模型( 18) ( Variable-Iength Markov model ) 。近年来，各种统计和机器学习方法被应用到词性标泊:中， lelinek ( 1994) 和 Magerman ( 1995) 提出了使用决策树来估计标记概率 : Ratnaparkl1jll9J ( 1996) 提出了运用最大脑算法对标记概率进行估计; Franz (1996 )提出了应用对数线性模型 [20J来实现标记概率的估计等。 Eric Bril1 于 1995 午，提出了 TBL 算陆来进行训性标注 l川。与国外词性标注研究现状棉比，国内刘汉语进行词性标泣的研究展开得比较迟，再加上训练 7J料规模的限制，以及汉语本身的复杂性，增加了汉语词性标注研究的难度。 80 rf