机器学习课件p3贝叶斯学习.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
可能的情况 自然语言的二义性 The girl saw the boy with a telescope. The girl saw-with-a-telescope the boy. The girl saw the-boy-with-a-telescope. 先验概率和后验概率 P(h):h的先验概率。 表示在没有训练数据前假设h拥有的初始概率; 先验概率反映了关于h是一正确假设的机会的背景知识。如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率; P(D):训练数据D的先验概率,P(D|h)表示假设h成立时D的概率; P(h|D): h的后验概率。表示给定D时h的成立的概率。 贝叶斯公式 提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法, P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少。 即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。 极大后验假设(MAP) 在候选假设集合H中寻找给定数据D时,可能性最大的假设h; 确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率。 极大似然假设(ML) 在某些情况下,可假定H中每个假设有相同的先验概率。 P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设; 假设空间H可扩展为任意的互斥命题集合,只要这些命题的概率之和为1。 示例-医疗诊断 有两个可选的假设:病人有癌症、病人无癌症 可用数据来自化验结果:正+和负- 先验知识: 在所有人口中,患病率是0.008 对确实有病的患者的化验准确率为98%, 对确实无病的患者的化验准确率为97% 先验知识的概率表示 P(cancer) = 0.008, P(?cancer) = 0.992 P(+|cancer) = 0.98, P(-|cancer) =0.02 P(+|?cancer) = 0.03, P(-|?cancer) = 0.97 示例 假定有一个病人,化验结果为正,是否应将病人断定为有癌症? 求后验概率P(cancer|+)和P(?cancer|+) 极大后验假设 P(+|cancer)P(cancer)=0.0078 P(+|?cancer)P(?cancer)=0.0298 hMAP=?cancer 确切的后验概率:上面结果的归一化P(canner|+)=0.0078/(0.0078+0.0298)=0.21 P(?cancer|-)=0.79 贝叶斯推理 贝叶斯推理的结果很大程度上依赖于先验概率,同时不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。 基本概率公式表 乘法规则:(A?B)=P(A|B)P(B)=P(B|A)P(A) 加法规则:P(A?B)=P(A)+P(B)-P(A?B) 贝叶斯法则:P(h|D)=P(D|h)P(h)/P(D) 全概率法则:如果事件A1...An互斥,且满足 则 贝叶斯法则 贝叶斯法则为计算给定训练数据下任一假设的后验概率提供了原则性方法,因此可以直接将其作为一个基本的学习方法:计算每个假设的概率,再输出其中概率最大的。 2 极大似然与最小误差平方假设 某些学习算法即使没有显式地使用贝叶斯规则,或以某种形式计算概率,但它们输出的结果符合贝叶斯原理,是一个MAP假设; 在特定前提下,任一学习算法如果使输出的假设预测和训练数据之间的误差平方和最小化,它将输出一极大似然假设; 对于许多神经网络和曲线拟合的方法,如果它们试图在训练数据上使误差平方和最小化,此结论提供了基于贝叶斯的理论依据。 最小误差平方假设 学习器L工作在实例空间X和假设空间H上,H中的假设为X上定义的某种实数值函数; L面临的问题是学习一个从H中抽取出的未知目标函数f,给定m个训练样例的集合,每个样例的目标值被某随机噪声干扰,此随机噪声服从正态分布; 最小误差平方假设 每个训练样例是序偶 xi,di,di=f(xi)+ei, ei是代表噪声的随机变量,假定ei的值是独立抽取的,并且它们的分布服从0均值的正态分布; 学习器的任务是在所有假设有相等的先验概率前提下,输出极大似然假设(即MAP假设)。 最小误差平方假设 最小误差平方假设 假定有一固定的训练实例集合,因此只考虑相应的目标值序列D=d1...dm,且di=f(xi)+ei。 假定训练样例是相互独立的,给定h时,可将P(D|h)写成各p(di|h)的积: 最小误差平方假设 如果误差ei服从0均值和未知方差?2的正态分布,那么每个di服从均值为f(xi),方差不变的正态分布。因此,p(di|h)可写为方差?2、均值f(x

您可能关注的文档

文档评论(0)

aena45 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档