隐马尔可夫模型HMM最大熵.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于隐马尔可夫模型的中国人名识别目录命名实体识别的简单介绍与关于中国人名识别关于命名实体识别的其他模型命名实体识别的简单介绍什么是命名实体识别背景命名实体识别是自然语言处理中的一项基本工作是分词和标注过程中的一个重要环节对于一篇待处理文本识别出其中出现的人名地名机构名日期时间百分数货币这七类命名实体其中人名地名机构名的识别是最难也最重要的三类今天想讲述的是中国人名的识别中国人名识别的困难解析姓前后缀王老板老于大周人名内部相互成词汪洋张朝阳人名与其上下文组合成词的情况例如这里有关天培的壮烈事迹歧义

基于隐马尔可夫模型的中国人名识别 目录 contents PART 01 PART 02 PART 03 命名实体识别的简单介绍 HMM与Viterbi HANLP关于中国人名识别 PART 04 关于命名实体识别的其他模型 01 PART ONE 命名实体识别的简单介绍 1 什么是命名实体识别 背景 命名实体识别是自然语言处理中的一项基本工作,是分词和标注过程中的一个重要环节。 对于一篇待处理文本,识别出其中出现的人名、地名(location)、机构名(organization)、日期(date)、时间(time)、百分数(percentage)、货币(monetaryvalue)这七类命名实体。其中人名、地名、机构名的识别是最难、也最重要的三类。 今天想讲述的是中国人名的识别。 1 中国人名识别的困难解析 1. 姓+前后缀 王老板、老于、大周 2.人名内部相互成词,[汪洋]、张[朝阳]。 3.人名与其上下文组合成词的情况。 例如:“这里[有关]天培的壮烈事迹” 4.歧义 河北省刘庄中的“刘庄”就是中国人名与地名的歧义 1 主要的技术方向 1.基于规则的方法 较早使用的方法,依赖于知识库和词典的建立,构造的选取规则。 麻烦的是对于不同领域的知识,识别能力下降。 2.基于统计的方法 主要包括:隐马尔可夫模型(HMM)、最大熵(ME)、支持向量机(SVM)、条件随机场( CRF)等。 今天想讲述的是基于统计的隐马尔可夫模型。 3.混合方法 02 PART TWO 隐马尔可夫模型(HMM) 2 隐马尔可夫模型(HMM) 隐马尔可夫模型是马尔可夫链的一种,最终要得到的隐式状态不能直接观察到,但能通过序列累乘计算得到,它是一个五元组。 (以天气预测系统举例) 1.隐状态 S 系统在t时刻的状态集合{晴,阴,雨},概率计算推出; 2.显式状态 O {潮湿,干燥}; 3.初始状态概率π (0.63,0.17.0.20),一年中晴天,阴天,雨天的概率; 4.隐含状态转移概率矩阵 (在晴天的情况下 转向阴天,雨天的概率) 5.观测状态转移概率矩阵 (在干燥的情况下 转向阴天,雨天的概率) 2 天气预测模型的示例 在这本书的171-174页有详细的天气预测示例 2 HMM中的一个基本问题-Viterbi 在有向图中选择最短路径,注意两个问题: 1.只与当前状态有关。 2.算法流程:(1)从点S出发,对于第一个状态X1的各个节点,不妨假定有n1个,计算出S到它们的距离d(S,X1i) (2)d(S,X2i) = d(S,X1i) + d(X1i,X2i)。 把S这些节点的距离都算一遍,就有O(n1·n2)次计算。 2 Viterbi的算法流程 (3)接下来,类似地按照上述方法从第二个状态走到第三个状态,一直走到最后一个状态,时间复杂度 即O(ni·ni+1) (4)假设这个隐含马尔可夫链中节点最多的状态有D个节点,也就是说整个网格的宽度为D,那么任何一步的复杂度不超过O(D2),由于网格长度是N,所以整个维特比算法的复杂度是O(N·D2)。 这里我们可以应用到天气预测系统中,对后续天气状态产生最重要影响的就是当前预测出的最大概率的天气状态 03 PART THREE HanLP的中国人名识别 3 HanLP-一个较为全面的汉语NLP开源包 HanLP的初始版本于2014年初开发,随着一步步的完善,2015年3月HanLP终于最为一个开源项目在maven中央库以及Github上开源。 3 HanLP-我想要识别的一段话 签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。 王国强、高峰、汪洋、张朝阳光着头、韩寒、小四, 张浩和胡健康复员回家了, 王总和小丽结婚了, 编剧邵钧林和稽道青说, 这里有关天培的有关事迹, 龚学平等领导,邓颖超生前, 3 运行示例 3 HanLP的人名识别 结果 [签约/vi, 仪式/n, 前/f, ,/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/udeng, 一同/d, 会见/v, 了/ule, 参加/v, 签约

文档评论(0)

wangsux + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档