基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术-计算机应用专业论文.docxVIP

基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术-计算机应用专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
攮十层次隐马尔日,火模型的汉语涮法分析和命名实体以刺技术基于层次隐马尔可夫模型的 攮十层次隐马尔日,火模型的汉语涮法分析和命名实体以刺技术 基于层次隐马尔可夫模型的 汉语词法分析和命名实体识别技术 摘要 本文提出了一种基于层次隐马尔可夫模型的汉语词法分析方法,旨 在将汉语分词、词性标注、切分排歧和命名实体识别集成到一个完整 的理论框架中。在分词方面,采取的是基于类的隐马尔可夫模型,在 这层隐马尔可夫模型中,命名实体和词典中收录的普通词一样处理。 命名实体识别引入了兔色HMM=Viterbi算法标注出全局最优的角色序 列,然后在角色序列的基础上,识别出命名实体,并计算出真实的可 信度。在切分排歧方面,采用一种基于N.最短路径的策略,即:在早 期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字 段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力 的候选结果中选优得到。不同层面的实验表明,层次隐马模型的各个 层面对汉语词法分析都发挥了积极的作用。作者参与了基于层次隐马 尔可夫模型的汉语词法分析系统ICTCLAS的开发,该系统在2002年 的973专家组评测中获得第一名,在2003年汉语特别兴趣研究#t(the ACL Special Interest Group on Chinese Language Processing,SIGHAN)组 织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二 名。这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层次隐 马尔可夫模型能够解决好汉语词法问题。 霜趣舴着、导,醇同蘸 匆金文公布 坫f层次隐马尔町人模掣的汉语l刊法分析和命名实体识别技术关键词:汉语词法分析,分词,词性标注,命名实体识别,层次隐马模 坫f层次隐马尔町人模掣的汉语l刊法分析和命名实体识别技术 关键词:汉语词法分析,分词,词性标注,命名实体识别,层次隐马模 型,ICTCLAS 毕卜层次隐马尔町人模型的汉语训法分析和命名宴体识5jlj挫术CHINESE 毕卜层次隐马尔町人模型的汉语训法分析和命名宴体识5jlj挫术 CHINESE LEXICAL ANALYSIS AND NAMED ENTITY IDENTIFICATION USING HIERARCHICAL HIDDEN MARKOV MODEL ABSTRACT This thesis presents an approach for Chinese lexical analysis using hierarchical hidden Markov model(m-IMM),which aims to incorporate Chinese word segmentation,Part-Of-Speech tagging,disambiguation and named entity identification into a!l integrated theoretical frame.A class‘based hidden Markov model ffIMMl is applied in word segmentation,and in this model unknown words are treated in the same way as common words listed in the lexicon.Named entity are recognized with reliability on roles sequence tagged using Viterbi algorithm in roles HMM.As for disambiguation,the author brings forth an n·shortest.path strategy that,in the early stage,reserves the top N segmentation results as candidates and covers more ambiguity.Various experiments show that each level in the HHMM contributes to Chinese lexical analysis.An HHMM-based system ICTCLAS was accomplished.The system not only ranked top in the official open evaluation,which was held by 973 project in 2002,but also achieved 2 first ranks and 1 secon

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档