《贝叶斯分类(数据挖掘)》.pptVIP

下载本文档

6
0
约4.62千字
约 17页
2020-01-28 发布于天津
举报
版权申诉

《贝叶斯分类(数据挖掘)》.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

6.4 Bayesian Classification;Bayesian Classification;Bayesian Theorem: Basics;贝叶斯基本理论的例子：; 理论上讲，与其所有分类算法相比，贝叶斯分类具有最小的出错率。然而，实践中并非如此。这是由于对其应用的假设的不准确，以及缺乏可用的概率数据造成的。研究结果表明，贝叶斯分类器对两种数据具有较好的分类效果： 1.完全独立的数据。 2.函数依赖的数据。;Na?ve Bayes Classification;(3).由于P(X)对于所有类为常数，只需要最大即可。如果类的先验概率未知，则通常假定这些类是等概率的，即。因此问题就转换为对的最大化。（常被称为给定时数据X的似然度，而使最大的假设称为最大似然假设）。否则，需要最大化。注意：类的先验概率可以用计算，其中是类中的训练样本数，而s是训练样本总数。;（4）.给定具有许多属性的数据集，计算的开销可能非常大。为降低计算的开销，可以做类条件独立的朴素假定。给定样本的类标号，假定属性值相互独立，即在属性间，不存在依赖关系。这样：其中概率可以由训练样本估值。 ①如果是离散属性，则，其中是在属性上的具有值的类的训练样本数，而是中的训练样本数。 ②如果是连续值属性，则通常假定该属性服从高斯分布，因而：是高斯分布函数。分别为平均值和标准差。 ;(5).对于未知样本 X 分类，也就是对每个类，计算。样本 X 被指派到类，当且仅当：换言之，X被指派到其最大的类。上面的五部就是朴素贝叶斯方法的主要思想，下面用一个具体的例子来说明具体的只用过程。 ;RID; 数据样本属性用age,income,student,和credit_rating描述。类标号属性buys_computer具有两个不同的值{yes,no}。设：对应于类buys_computer=“yes”，对应于类buys_computer=“no”。我们希望分类的未知样本为： X=(age=“≤30”,income=“medium”,student=“yes”,credit_rating=“fair”）我们希望最大化。每个类的先验概率可以根据训练样本计算： P(buys_computer=“yes”)=9/14=0.643 P(buys_computer=“no”)=5/14=0.357 ; 我们通过在全部时间基础上观察某事件出现比例来估计概率。例如，在下例中，估计P(age≤30|buys_computer=“yes”)使用的是比值。其中n=9为所有30|buys_computer=“yes”的训练样本。而是在其中age≤30的数目。;为计算，我们计算下面的条件概率： P(age≤30|buys_computer=“yes”)=2/9=0.222 P(age≤30|buys_computer =“no”)=3/5=0.600