2017-知识图谱导论-实体识别2.pdf

  1. 1、本文档共141页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2017-知识图谱导论-实体识别2

2017-2018学年-秋季学期: 知识图谱导论 实 体 识 别 赵 军 (jzhao@ ) 中国科学院自动化研究所 模式识别国家重点实验室 基于统计的分词方法:判别式方法 原理: 在有限样本条件下建立对于预测结果的判别函数,直接 对预测结果进行判别 由字构词的分词理念,将分词问题转化为判别式分类问 题 典型算法: Maxent SVM CRF Perceptron 基于统计的分词方法 判别式分词 流程: 把分词问题转化为确定句中每个字在词中位置问题 每个字在词中可能的位置可以分为以下三种 词首B (日本占领 了 东三省) 词中M (游泳比赛 菲尔普斯 独 占鳌头) 词尾E (中国队抢 占 了 风头) 独字S (男生占全班 人数 的 百分之八十) 分词结果展示: 分词结果:毛/ B 新/ M 年/ E 2/B 0/M 0/M 0/M 年/ E 毕/ B 业/ E 于/S 东/ B 北/ M 大/ M 学/ E 最大熵模型:熵 什么是熵? 什么是熵? 没有什么问题在科学史的进程中曾被更为频 繁地讨论过 (比利时物理化学家,诺贝尔奖,普里高津) 熵定律是自然界一切定律中的最高定律 (里夫金霍华德, 《熵:一种新的世界观》 ) 最大熵模型:熵的提出 热力学第二定律:物理过程总是自发地从有序走向无序, 最后达“热寂”。 热寂是猜想宇宙终极命运的一种假说。作为一个“孤立” 的系统,宇宙的熵会随着时间的流逝而增加,由有序向无 序,当宇宙的熵达到最大值时,宇宙中的其他有效能量已 经全数转化为热能,所有物质温度达到热平衡。这样的宇 宙中再也没有任何可以维持运动或是生命的能量存在。 最大熵模型:熵的提出 德国物理学家克劳修斯 (Rudolph J.E clausius )从热力学 第二定律出发 ,于 1865提出熵的概念用来描述一个系统的 无序度。 因此热力学第二定律又被称为 “增熵原理” ,即 系统的演进总是指向熵增加的方向。 克 劳 修 斯 的 熵 概 念 这 是 在 热 力 学 角 度 提 出 的 ,后 被 Boltzmann通过统计物理学的角度重新诠释。 最大熵模型:熵与信息 熵表示了一个事件的不确定性 信息可以理解为事件不确定性的减少 原来不确定的事件现在确定下来,就是获得了信息 原来不确定性越大的事情发生了,获得的信息越多 例如: 狗咬人不是新闻,人咬狗才是新闻 最大熵模型:信息熵 熵:1948年电气工程师香农( Shannon)创立了信息论,将信 息量与熵联系起来。 他用非常简洁的数学公式定义了信息时代的基本概念:信息 熵(简称熵),定量地描述事件的不确定性 设随机变量ξ ,它有A1 ,A2 ,… ,An共n个可能的结局,每 个结局出现的概率分别为p1,p2 ,... ,pn ,则ξ 的不确定程度, 即信息熵为: 熵越大,越不确定;熵等于0 ,事件是确定的;通常对数底取 2 ,熵的单位为比特(bit ) 最大熵模型:例子 抛硬币 X={正面,反面} p(正面)=p(反面)=0

文档评论(0)

138****7331 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档