网站大量收购闲置独家精品文档,联系QQ:2885784924

分类-数据挖掘-韩家炜_3解读.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类-数据挖掘-韩家炜_3解读

Data Mining: Concepts and Techniques 本讲内容 贝叶斯分类 基于神经网络的分类 Bayesian Classification 是一种基于统计的分类方法,用来预测诸如某个样本属于某个分类的概率有多大 基于Bayes理论 研究发现,Na?ve Bayes Classifier在性能上和Decision Tree、Neural Network classifiers 相当。在应用于大数据集时,具有较高的准确率和速度 Na?ve Bayes Classifier假设属性值之间是独立的,因此可以简化很多计算,故称之为Na?ve 。当属性值之间有依赖关系时,采用Bayesian Belief Networks进行分类。 Bayesian Theorem: Basics 假设X是未知分类标号的样本数据 H代表某种假设,例如X属于分类C P(H|X): 给定样本数据X,假设 H成立的概率 例如,假设样本数据由各种水果组成,每种水果都可以用形状和颜色来描述。如果用X代表红色并且是圆的,H代表X属于苹果这个假设,则P(H|X)表示,已知X是红色并且是圆的,则X是苹果的概率。 Bayesian Theorem: Basics P(H): 任一个水果,属于苹果的概率. (不管它什么颜色,也不管它什么形状) P(X): 任一个水果,是红色并且是圆的概率 (不管它属于什么水果) P(X|H) : 一个水果,已知它是一个苹果,则它是红色并且是圆的概率。 P(H|X) : 一个水果,已知它是红色并且是圆的,则它是一个苹果的概率。 Bayesian Theorem: Basics 现在的问题是,知道数据集里每个水果的颜色和形状,看它属于什么水果,求出属于每种水果的概率,选其中概率最大的。也就是要算: P(H|X) 但事实上,其他三个概率, P(H)、 P(X)、 P(X|H) 都可以由已知数据得出,而P(H|X)无法从已知数据得出 Bayes理论可以帮助我们: Na?ve Bayes Classifier 每个数据样本用一个n维特征向量表示,描述由属性对样本的n个度量。 假定有m个类。给定一个未知的数据样本X(即,没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci ,当且仅当: 这样,我们最大化 。其最大的类Ci称为最大后验假定。根据贝叶斯定理: Na?ve Bayes Classifier 由于P(X) 对于所有类为常数,只需要 最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即, 。并据此只对 最大化。否则,我们最大化 。类的先验概率可以用 计算;其中,si是类C中的训练样本数,而s是训练样本总数。 Na?ve Bayes Classifier 给定具有许多属性的数据集,计算 的开销可能非常大。为降低计算的开销,可以朴素地假设属性间不存在依赖关系。这样, 概率 , ,…, 可以由训练样本估计,其中, (a)?如果Ak是分类属性,则 ;其中sik 是在属性Ak 上具有值xk 的类Ci 的训练样本数,而si 是Ci中的训练样本数 (b)?如果是连续值属性,则通常假定该属性服从高斯分布。因而, 其中,给定类Ci的训练样本属性Ak的值, 是属性Ak的高斯密度函数,而 分别为平均值和标准差。 Na?ve Bayes Classifier 为对未知样本X分类,对每个类Ci,计算 。样本X被指派到类Ci,当且仅当: 换言之,X被指派到其 最大的类Ci。 Training dataset Na?ve Bayesian Classifier: An Example Compute P(X|Ci) for each class P(buys_comput

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档