第8章统计的方法和贝叶斯网络.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章 贝叶斯(Bayes)分类 东北财经大学电子商务学院 主要内容 8.1 贝叶斯定理 贝叶斯学派奠基性的工作是贝叶斯的论文“关于几率问题求解的评论”。20世纪50年代,以罗宾斯为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活跃的一个方向。 统计学中有两个主要学派:频率学派和贝叶斯学派,他们之间既有共同点,又有不同点。 贝叶斯学派是数理统计学中的一大流派,贝叶斯概率与传统概率之间最大的区别在于他们对某个事件概率的定义是不一样的 经典概率定义一个事件的概率是确定的,并且是客观的,而贝叶斯概率认为,一个事件的概率是确定这个概率的人的主观判断,即传统概率是客观认识,而贝叶斯概率是主观判断。 8.1 贝叶斯定理 贝叶斯概率简单地说,某一事件x的贝叶斯概率是观测者对该事件发生的相信程度,观测者根据先验知识和现有的统计数据,用概率的方法来预测未知事件发生的可能性。 贝叶斯概率不同于普通意义上的事件的客观概率,客观概率是在多次反复实验中事件发生的频率的近似值,而贝叶斯概率则是利用已有的知识对未知事件出现频率的预测(比如你会相信硬币落地出现正面的概率),不需要反复做实验。 在许多应用中,属性集和类变量之间的关系是不确定的 (尽管测试记录的属性集和某些训练样本相同) → 无法确定地预测其类标号 (可能是由于噪声,或者出现了某些影响分类的因素,却没有包含在分析中) 8.1 贝叶斯定理 【例】考虑一个人的饮食和锻炼的频率来预测他是否患有心脏病 由于遗传、吸烟过量、酗酒等影响因素 没有考虑进去。 所以,不能确定地给出其是否患有心脏病(类标号)的判断 8.1 贝叶斯定理 8.1 贝叶斯定理 8.1 贝叶斯定理 假设X和Y是一对随机变量,X表示属性集,Y表示类变量。 P(X,Y)表示他们的联合概率 P(Y)称为Y的先验概率 P(X)是X的先验概率 P(Y|X)是后验概率,或在条件X下,Y的后验概率。 P(X|Y)是条件Y下,X的后验概率 对于分类问题,希望确定P(Y|X)——给定观测数据元组X,假设X属于某特定类Y成立的概率。换言之,给定X的属性描述,找出元组X属于类Y的概率。 贝叶斯定理: 8.1 贝叶斯定理 例 预测一个贷款者是否会拖欠还款。图8.4中的训练集中有如下属性:有房、婚姻状况和年收入。若前还款的贷款者属于类Yes,还清贷款的贷款者属于类No。 假设给定一测试记录有如下属性集:X=(有房=否,婚姻状况=已婚,年收入=$120K)。 要分类该记录,我们需要利用训练数据中的可用信息计算后验概率P(Yes|X)和P(No|X)。 如果P(Yes|X)P(No|X),那么记录分类为Yes,反之,分类为No。 8.2 朴素贝叶斯分类 朴素贝叶斯(naive Bayes):基于条件概率的贝叶斯定理提出的。通过分析每个“独立的”属性所起的作用,可以确定一个条件概率。将不同的属性对预测所起的作用组合起来就可以用于分类。 这种方法之所以被称为“朴素的”是因为它假设各种属性值之间是独立的。 对于属性集 ,因为 之间相互独立,即 8.2 朴素贝叶斯分类 分类测试记录时,朴素贝叶斯分类器对每个类Y计算后验概率: 其中P(X)是固定的常数,先验概率P(Y)可以通过训练集中每类样本所占的比例估计。只要找出使 最大的类别y即可。 分类法预测X的类标号为,当且仅当 换言之,预测的类标号是使 最大的类 。 8.2 朴素贝叶斯分类 的计算视属性的性质有所不同,下面我们描述几种估计分类属性和连续属性的条件概率的方法。 对于分类属性 ,可以用类Y中属性值等于 的样本比例来估计条件概率 。例如,在图8.4给出的训练集中 还清贷款的7个人中3个人有房,条件概率 P(有房=是|No)等于3/7。 拖欠还款的人中单身的条件概率 P(婚姻状况=单身|Yes)=2/3。 8.2 朴素贝叶斯分类 朴素贝叶斯分类法使用两种方法估计连续属性的类条件概率: 1、可以先把 离散化,然后计算属于类Y的训练样本落在 对应离散区间的比例估计 。离散化的方法在数据挖掘概论一章中讨论过了。估计误差由离散化方法和离散区间的数目决定。 如果离散区间的数目太大,则就会

文档评论(0)

189****1620 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档