第五章--贝叶斯学习-v7.2.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2003.12.18 机器学习-贝叶斯学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏 第6章 贝叶斯学习 引言 贝叶斯推理提供了一种概率(主要应用条件概率)学习手段,根据以往数据的概率分布和已观察到的数据进行推理判断。对数据量大的问题十分适用,在云计算和大数据时代再次成为是研究热点。 基本概率知识 加法法则 条件概率与乘法公式 例子: 10个产品3个次品,A为“第一次抓的是次品”,B为“第二次抓的是次品”。两次抓取实验的图示解释。其中:P(A)=0.3;在A发生后,B发生的概率为2/9.这个概率就是条件概率,记为P(B|A).其图示为:上图中’II占A的比例’,即: P(B|A) = P(AB) / P(A). 乘法公式: P(AB) = P(B|A)* P(A) A,B等价,又有P(AB) = P(A|B)* P(B) 贝叶斯公式 由P(AB)=P(B|A)* P(A)= P(A|B)* P(B)立得, P(B|A) = P(A|B)* P(B)/P(A) 机器学习中,写为 用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识。 机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。 举例:一个医疗诊断问题 有两个可选的假设:病人有癌症、病人无癌症 可用数据来自化验结果:正+和负- 有先验知识:在所有人口中,患病率是0.008 对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97% 总结如下 P(cancer)=0.008, P(?cancer)=0.992(此二者为先验概率) P(+|cancer)=0.98, P(-|cancer)=0.02 P(+|?cancer)=0.03, P(-|?cancer)=0.97 问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率P(cancer|+)和P(?cancer|+) 计算后验(假设)概率: P(cancer|+)= P(+|cancer)P(cancer)/ P(+) = 0.0078/全概率公式算P(+) P(+|cancer)P(cancer) = 0.0078 P(+)= P(+|cancer)P(cancer)+ P(+|~cancer)P(~cancer) = 0.0078 + 0.03*0.992 = 0.0078+0.0297 = 0.0376 P(cancer|+)= P(+|cancer)P(cancer)/ P(+) = 0.0078/全概率公式算P(+) = 0.0078/ 0.0376 = 0.21 (此为后验概率) 同理可计算得P(?cancer|+)=0.79 (此为后验概率) 所以取最大后验概率还是判断 hMAP=?cancer(没有得cancer!) 各后验概率之和为1称为归一化: P(canner|+)=0.0078/(0.0078+0.0298)=0.21 P(+| ? cancer)P(? cancer) = 0.0298 P(?cancer|+)= 0.0298 /(0.0078+0.0298)=0.79 贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性 贝叶斯学习方法的概述 贝叶斯推理提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。 贝叶斯推理为衡量多个假设的置信度提供了定量的方法 贝叶斯推理为直接操作概率的学习算法提供了基础,也为其他算法的分析提供了理论框架 贝叶斯学习方法的概述 贝叶斯学习算法与机器学习相关的两个原因: 贝叶斯学习算法能够计算显示的假设概率,比如朴素贝叶斯分类,因此它是解决相应学习问题的最有实际价值的(概率推理)方法之一。 贝叶斯方法为理解多数学习算法提供了一种有效的手段,而这些算法不一定直接操纵概率数据,比如 候选消除算法 神经网络学习:选择使误差平方和最小化的神经网络 分析了决策树的归纳偏置 考察了最小描述长度原则 贝叶斯学习方法的特性 观察到的每个训练样例可以增量地降低或升高某假设的估计概率。而其他算法会在某个假设与任一样例不一致时完全去掉该假设。 先验知识可以与观察数据一起决定假设的最终概率,先验知识的形式是:1)每个候选假设的先验概率(e.g., P(cancer));2)每个可能假设在可观察数据上的概率分布(P(+|cancer)) 贝叶斯方法可允许假设做出不确定性的预测 贝叶斯方法的难度 难度之一:需要概率的初始知识。 难度之二:一般情况下

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档