- 1、本文档共141页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2017-知识图谱导论-实体识别2
2017-2018学年-秋季学期: 知识图谱导论
实 体 识 别
赵 军 (jzhao@ )
中国科学院自动化研究所
模式识别国家重点实验室
基于统计的分词方法:判别式方法
原理:
在有限样本条件下建立对于预测结果的判别函数,直接
对预测结果进行判别
由字构词的分词理念,将分词问题转化为判别式分类问
题
典型算法:
Maxent SVM CRF Perceptron
基于统计的分词方法
判别式分词
流程:
把分词问题转化为确定句中每个字在词中位置问题
每个字在词中可能的位置可以分为以下三种
词首B (日本占领 了 东三省)
词中M (游泳比赛 菲尔普斯 独 占鳌头)
词尾E (中国队抢 占 了 风头)
独字S (男生占全班 人数 的 百分之八十)
分词结果展示:
分词结果:毛/ B 新/ M 年/ E 2/B 0/M 0/M 0/M 年/ E
毕/ B 业/ E 于/S 东/ B 北/ M 大/ M 学/ E
最大熵模型:熵
什么是熵?
什么是熵? 没有什么问题在科学史的进程中曾被更为频
繁地讨论过
(比利时物理化学家,诺贝尔奖,普里高津)
熵定律是自然界一切定律中的最高定律
(里夫金霍华德, 《熵:一种新的世界观》 )
最大熵模型:熵的提出
热力学第二定律:物理过程总是自发地从有序走向无序,
最后达“热寂”。
热寂是猜想宇宙终极命运的一种假说。作为一个“孤立”
的系统,宇宙的熵会随着时间的流逝而增加,由有序向无
序,当宇宙的熵达到最大值时,宇宙中的其他有效能量已
经全数转化为热能,所有物质温度达到热平衡。这样的宇
宙中再也没有任何可以维持运动或是生命的能量存在。
最大熵模型:熵的提出
德国物理学家克劳修斯 (Rudolph J.E clausius )从热力学
第二定律出发 ,于 1865提出熵的概念用来描述一个系统的
无序度。 因此热力学第二定律又被称为 “增熵原理” ,即
系统的演进总是指向熵增加的方向。
克 劳 修 斯 的 熵 概 念 这 是 在 热 力 学 角 度 提 出 的 ,后 被
Boltzmann通过统计物理学的角度重新诠释。
最大熵模型:熵与信息
熵表示了一个事件的不确定性
信息可以理解为事件不确定性的减少
原来不确定的事件现在确定下来,就是获得了信息
原来不确定性越大的事情发生了,获得的信息越多
例如:
狗咬人不是新闻,人咬狗才是新闻
最大熵模型:信息熵
熵:1948年电气工程师香农( Shannon)创立了信息论,将信
息量与熵联系起来。
他用非常简洁的数学公式定义了信息时代的基本概念:信息
熵(简称熵),定量地描述事件的不确定性
设随机变量ξ ,它有A1 ,A2 ,… ,An共n个可能的结局,每
个结局出现的概率分别为p1,p2 ,... ,pn ,则ξ 的不确定程度,
即信息熵为:
熵越大,越不确定;熵等于0 ,事件是确定的;通常对数底取
2 ,熵的单位为比特(bit )
最大熵模型:例子
抛硬币
X={正面,反面}
p(正面)=p(反面)=0
文档评论(0)