2机器学习 人工智能课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2机器学习 人工智能课件

贝叶斯学习为衡量多个假设的置信度提供了定量的方法,可以计算每个假设的显式概率,提供了一个客观的选择标准。 特性 观察到的每个训练样例可以增量地降低或升高某假设的估计概率。 先验知识可以与观察数据一起决定假设的最终概率。 允许假设做出不确定性的预测。例如前方目标是骆驼的可能性是90%,是马的可能性是5%。 新的实例分类可由多个假设一起做出预测,用它们的概率来加权。 即使在贝叶斯方法计算复杂度较高时,它仍可作为一个最优决策标准去衡量其它方法。 * 在机器学习中一个实例x往往有很多属性 a1,a2,…,an 其中每一维代表一个属性,该分量的数值就是所对应属性的值。 * * 此时依据MAP假设的贝叶斯学习就是对一个数据a1,a2,…,an,求使其满足下式的目标值。其中H是目标值集合。 估计每个P(hi)很容易,只要计算每个目标值hi出现在训练数据中的频率就可以。 如果要如此估计所有的P(a1,a2,…,an|hi)项,则必须计算a1,a2,…,an的所有可能取值组合,再乘以可能的目标值数量。 * 假设一个实例有10个属性,每个属性有3个可能取值,而目标集合中有5个候选目标。那么P(a1,a2,…,an|hi)项就有 个。 * 不适合于高维数据! 对于贝叶斯学习有两种思路可以解决高维数据问题。一种是朴素贝叶斯(Na?ve Bayes)方法,也称为简单贝叶斯(Simple Bayes)方法。 * 朴素贝叶斯分类器采用最简单的假设: 对于目标值,数据各属性之间相互条件独立。 即,a1,a2,…,an的联合概率等于每个单独属性的概率乘积: * 将上页的式子带入上面求 的公式中,就得到朴素贝叶斯分类器所用的方法: 其中 表示朴素贝叶斯分类器输出的目标值。 * 仍假设一个实例有10个属性,每个属性有3个可能取值,而目标集合中有5个候选目标。朴素贝叶斯分类器中需要从训练数据中估计的P(aj|hi)项的数量是 。 * 5×3×10 ! 朴素贝叶斯学习的主要过程在于计算训练样例中不同数据组合的出现频率,统计出P(hi)和P(aj|hi)。 算法比较简单,是一种很有效的机器学习方法。 * 当各属性条件独立性满足时,朴素贝叶斯分类结果等于MAP分类。 这一假定一定程度上限制了朴素贝叶斯方法的适用范围。 但是在实际应用中,许多领域在违背这种假定的条件下,朴素贝叶斯学习也表现出相当的健壮性和高效性。 * 6.3.1 贝叶斯法则 6.3.2 朴素贝叶斯方法 6.3.3 贝叶斯网络 6.3.4 EM算法 6.3.5 用贝叶斯方法过滤垃圾邮件 * 朴素贝叶斯方法的学习过程 收集大量垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。 提取邮件主题和邮件内容中的有效字词wi,例如“内幕”、“真相”等等。然后统计其出现次数,即在该训练集上的词频TF(wi)。 对垃圾邮件集和非垃圾邮件集中所有邮件执行第二步。 对垃圾邮件集和非垃圾邮件集分别建立哈希表Wspam和Wvalid,存储从有效字词到其词频的映射关系。 计算每个有效字词在垃圾邮件集(Wspam)上出现的概率P(wi|C=spam)和在非垃圾邮件集(Wvalid)上出现的概率P(wi|C=valid) 在垃圾邮件集和非垃圾邮件集上的学习过程结束,获得在垃圾邮件集和非垃圾邮件集上每个有效字词的出现概率。 * 用朴素贝叶斯方法判定一封邮件的过程 对于一封邮件提取其所有有效字词t1,t2,…,tn。 从哈希表Wspam和Wvalid中分别提取不同类别中上述有效字词的概率P(ti|C=spam) 和P(ti|C=valid)。 依据朴素贝叶斯方法计算该邮件为垃圾邮件的概率P(C=spam|t1,t2,…,tn)和为非垃圾邮件的概率P(C=valid|t1,t2,…,tn) 如果P(C=spam|t1,t2,…,tn) P(C=valid|t1,t2,…,tn)则该邮件为垃圾邮件,否则该邮件不是垃圾邮件。判定过程结束。 * 问题 某个词频为0的时候,实际概率不应该为0 思想: 把原先n个实际观察扩大,加上m个按照p分布的虚拟样本。 其中p是先验估计概率。 m是一个表示等效样本大小的常量。 估计p最常用的方法就是假定均匀分布的先验概率。 若属性(即训练样例)有k个可能取值,那么p=1/k。 m最常见的取值就是所有不同有效字词的个数,即词汇表的大小。 此时若采用均匀分布的先验概率,则mp=1。所以上式变为: * * 本章待续…… * 主讲:鲍军鹏 博士 西安交通大学电信学院计算机系 电子邮箱:dr.baojp@ 版本:2.0 2010年1月 6.3.1 贝叶斯法则 6.3.2 朴素贝叶斯方法 6.3

文档评论(0)

skvdnd51 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档