基于HMM的汉语词性标注及其改进-计算机应用技术专业论文.docxVIP

基于HMM的汉语词性标注及其改进-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HMM的汉语词性标注及其改进-计算机应用技术专业论文

太原理 L大学硕 J:研究生学位 论文 取得了值得芮定的成绩。但这项研究工作不会停止 ,它仍然有着研究空间和应用前景。 1.2. 2 研究目的与意义 HMM 是在马尔可夫模型 的基础上变形应用 而来,最早 于 1957 年被提出181  HMM 在统计学习技术中占据着不可动摇 的地位 ,主 应用于语音处理技术、词性标注和信息 提取 中e 目前, HMM 也被引入到文本分类、信息压缩、模式识别 [9) 、故障诊断等领域。 HMM 是词性标注 研究中基于统计方法的典型应用 ,HMM 的灵活性,给词性标 注 的研究带来了 方便。随着 HMM 研究的不断深入,各种基于 一般 HMM 而i进行的 改进 、 演变、扩展方法层 :B不穷 ,为词性标注效果 的改进注入了新的活力。 随着词性标注的应用覆盖 面不断增加,汉语词性标注的研究也得到了 广泛关注。 汉 语词性标注对汉语i在 料库研究、机器翻译、信息检索等都具有重要意义。具体来说,它 给语言学的深 入学习打下了结实的基础:为深层次的自然语 言文本信息处理准备资料: 能从经过词性标注处理的文本中提 取词类信息和词汇的 词性标注信息。 1.3 词性标注的发展史 国外很早就开始了英文 自动词性标注研究,到日前己经达到昌盛的阶段,不同的改 进方法各具风骚,大体可以分为以下几个阶段: (1)上世纪五十年代末 ,出现了最早的词类指派(也就是现在所称的 词性标注 ) 算法,它是 ZeJling Harris[I O-l l)的转换和话语分析课题 (Transfonnation and Discourse Analysis Project ,简称 TDAP ) 的剖析程序的一个部分。 TDAP 使用了 14 条规则进行 词性歧义消除,用到的词性标记序列是捕后所有算法的雏形。 (2) 上肚纪六十年代初,在丁 DAP 后 ,Klein and Simmonsl12)提出了由词典、形态 分析器和土 下末歧义消解器 工部分组成的计算语、法编码器 (Computational Grall1mar Coder ,简称CGC) 。运行时,一个单词通过词典和形态分析器后产生候选的词性集 合 , 运用包含 1500 条上下文规则的规则集来消除歧义。 )(3)到了七十年代初,基于规则的标注方法迅速崛起,最典型的就是 TAGGITI 13) 系统。它是由 Greene 和 Rubin 于 1971 年在Klein and Simmons 的基础上提出的。与 CGC 相比,TAGGIT 扩大了词典规模,增加了 标记集个数。 TAGGlT被用来标记 Brown 语料 库, 正确率达到 77%(14 。 ) (4) 七十年代末到八十年代初 ,基于统计的标注方法 开始在经验主义方浩思潮的 太原}..lll汇大学硕士例:究生学位论文 影响 F活跃起来。随着 Lancaster-OslolBcrgen ( LOB) 115J 的编制成功, CLAWS 势法116J ( Marshall , 1 983. 1987; Garside,1 987) 浮出水面。它是 一个概率算沽 ,近似于 HMM 标校方法。 CLAWS 算法使用标记的二元语法概率,徊不储存每个标记的单词似然度 , 而是给taglword (标记 单词 )标上 rare (罕用), infrequent (低频〉或 nonna lJy frequent (jf常额度〉这样的等级符号。 Church -f J 988 年 提出了接近千完全 HMM 标注$1.:法的 PARTS 概率标注算法!l7],它是对 CLAWS 算法思想 的扩充,采用了 Viterbi 算法来找出 标i己序列。 (5)到了九十年代 ,基于统计的方法 卅始在词性本J;注舞台 l.扮演主角。研究有在 标江系统巾明确使用了 HMM ,而且常与 EM 算法结合运用 ,包括使用变长马尔可夫模 型( 18) ( Variable-Iength Markov model ) 。近年来,各种统计和机器学习方法被应用到词性 标泊:中, lelinek ( 1994) 和 Magerman ( 1995) 提出了使用决策树来估计标记概 率 : Ratnaparkl1jll9J ( 1996) 提出了运用最大脑算 法对标记概率进行估计; Franz (1996 )提 出了应用对数线性模型 [20J来实现标记概率的估计 等。 Eric Bril1 于 1995 午,提出了 TBL 算 陆来进行训性标注 l川。 与国外词性标注研究现 状棉比,国内刘汉语进行词性标 泣的研究展开得比较迟 ,再 加上训练 7J料规模的限制 ,以及汉语本身的复杂性 ,增加了汉语词性标注研究的难度。 80 rf

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档