最大熵模型中的数学推导.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
结结构构之之法法 算算法法之之道道 七七月月算算法法 ((面面试试、、算算法法、、机机器器学学习习))::hhttttpp ::////wweebb..jjuull eedduu..ccoomm//。。 最最大大熵熵模模型型中中的的数数学学推推导导 分类: 30.Machine LData Mining 2014-10-27 16:28 17903人阅读 评论 (20) 收藏 举报      最最大大熵熵模模型型中中的的数数学学推推导导 00 引引言言     写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔。无独有偶,重写KMP得益于今年4月个人组织的 算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班。     10月26日机器学习班第6次课,身为讲师之一的邹博讲最大熵模型,他从熵的概念,讲到为何要最大熵、最大熵的推导,以及求解参数的IIS方法,整个过程讲得非常流畅, 特别是其中的数学推导。晚上我把他的PPT 在微博上公开分享了出来,但对于没有上过课的朋友直接看PPT 会感到非常跳跃,因此我打算针对机器学习班的某些次课写一系列博 客,刚好也算继续博客中未完的机器学习系列。    综上,本文结合邹博最大熵模型的PPT和其它相关资料写就,可以看成是课程笔记或学习心得,着重推导。有何建议或意见,欢迎随时于本文评论下指出,thanks。 11 预预备备知知识识     为了更好的理解本文,需要了解的概率必备知识有: 1. 大写字母X表示随机变量,小写字母x表示随机变量X的某个具体的取值; 2. P (X)表示随机变量X的概率分布,P (X,Y)表示随机变量X、Y的联合概率分布,P (Y |X)表示已知随机变量X的情况下随机变量Y的条件概率分布; 3. p (X = x)表示随机变量X取某个具体值的概率,简记为p (x); 4. p (X = x, Y = ) 表示联合概率,简记为p (x, ),p (Y = |X = x)表示条件概率,简记为p ( |x),且有:p (x, ) = p (x) * p ( |x)。     需要了解的有关函数求导、求极值的知识点有: 1. 如果函数 =f(x)在[a, b]上连续,且其在 (a,b)上可导,如果其导数f’(x) 0,则代表函数f(x)在[a,b]上单调递增,否则单调递减;如果函数的二阶导f(x) 0,则函 数在[a,b]上是凹的,反之,如果二阶导f(x) 0,则函数在[a,b]上是凸的。 2. 设函数f(x)在x0处可导,且在x处取得极值,则函数的导数F’(x0) = 0。 3. 以二元函数z = f(x, )为例,固定其中的 ,把x看做唯一的自变量,此时,函数对x的导数称为二元函数z=f(x, )对x的偏导数。 4. 为了把原带约束的极值问题转换为无约束的极值问题,一般引入拉格朗日乘子,建立拉格朗日函数,然后对拉格朗日函数求导,令求导结果等于0,得到极值。     更多请查看 《高等数学上下册》、 《概率论与数理统计》等教科书,或参考本博客中的:数据挖掘中所需的概率论与数理统计知识。 22 何何谓谓熵熵??     从名字上来看,熵给人一种很玄乎,不知道是啥的感觉。其实,熵的定义很简单,即用来表示随机变量的不确定性。之所以给人玄乎的感觉,大概是因为为何要取这样的名 字,以及怎么用。     熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。 22..11 熵熵的的引引入入     事实上,熵的英文原文为entrop ,最初由德国物理学家鲁道夫 ·克劳修斯提出,其表达式为:     它表示一个系系统在不受外部干扰时,其内部最稳定的状态。后来一中国学者翻译entrop 时,考虑到entrop 是能量Q跟温度T的商,且跟火有关,便把entrop 形象的翻译 成 “熵”。     我们知道,任何粒子的常态都是随机运动,也就是无序运动,如果让粒子呈现有序化,必须耗费能量。所以,温度 (热能)可以被看作有序化的一种度量,而熵可 以看作是无序化的度量。     如果没有外部能量输入,封闭系统趋向越来越混乱 (熵越来越大)。比如,如果房间无人打扫,不可能越来越干净 (有序化),只可能越来越乱 (无序化)。而要让一个系 统变得更有序,必须有外部能量的输入。     1948年,香农Claude E. Shannon引入信息 (熵),将其定义为离散随机事件的出现概率。一个

文档评论(0)

wyjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档