19分类与预测 2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
19分类与预测 2

数据挖掘 陈靖宇 广东工业大学 2007 9.2 基于判定树的分类 -属性选择方法 【例1 】判定树归纳。下表给出一个商场顾客DB数据元组训练集,类标号属性为:“buys_compute” 有两个不同值(即{yes,no}),因此有两个不同的类(m = 2)。设类C1对应于yes,而类C2对应no。类yes 有9 个样本,类no 有5 个样本。我们用前面的一组公式计算每个属性的信息增益。 9.2 基于判定树的分类 -属性选择方法 首先计算给定样本分类所需的信息增益: 接着计算每个属性的熵,从属性age开始: 9.2 基于判定树的分类 -属性选择方法 若样本按age划分,对一个给定的样本分类所需的期望信息为: 这种划分的信息增益是: 9.2 基于判定树的分类 -属性选择方法 类似地,可计算: 由于age在属性中具有最高信息增益,它被选作测试属性。创建一个节点,用age 标记,并对每个属性值引出一个分枝。样本据此划分,见下图: 9.3 贝叶斯分类 贝叶斯分类方法是统计学分类方法。它可以预测类别所属的概率。分类算法的比较研究表明:一种简单贝叶斯分类算法,在分类性能上可以与判定树和神经网络分类算法相媲美。尤其在处理大型数据库时,贝叶斯分类已表现出高准确率与高速度。 贝氏分类法- 简介 或然率学习法 (Probabilistic learning) 一种以机率、统计学为基础的分类 渐增性 (incremental) 逐步将数据加入 适合数据会不断成长的应用 利用事件发生机率来推测未知数据类别 不易解释分类原因的缺点 适合用在预测未知样本的类别,而不适合用来找出数据分类的原因 贝氏定理 (2) 举例:欲计算某顾客会购买笔记本的机率 X案例即是这位顾客 C类别即是会购买笔记本的顾客类别 X会购买笔记本的机率 = (购买笔记本者中出现X的机率) × (购买笔记本者的机率) / (X出现的机率) 有实行上的困难,因为购买笔记本者中出现X的机率并无法从已知样本的数据中计算而得 贝氏分类法 引进条件独立的假设 : P (X= x1,…,xk|C)?P(x1|C)???P(xk|C) x1,…,xk为案例X的k个属性值 则P(C|X) = P(x1|C)???P(xk|C)?P(C) / P(X)………….(5.2) 贝氏分类法 利用公式 (5-2) 计算出未知案例属于各个类别的机率 取机率值最大的类别作为该案例的类别预测 亦即取使P(x1|C)???P(xk|C)?P(C)值极大化的类别C即是案例X的预测类别(因P(X)均相同) 9.3 贝叶斯分类 -简单贝叶斯分类 【例3 】用简单贝叶斯分类预测类标号:给定训练数据,使用简单贝叶斯分类预测一个未知样本的类标号。训练数据集包含属性年龄,收入,学生,信用级。 类标号属性为购买电脑,它有两个不同取值。设C1对应于类购买电脑=“yes”,而C2对应于类购买电脑=“no”. 我们希望分类的未知样本为: X=(年龄=“=30”,收入=“中”,学生=“yes”,信用级=“良”) 9.3 贝叶斯分类 -简单贝叶斯分类 (1)每个数据样本用一个n维特征向量 表示,分别描述对n个属性 样本的n个度量。 (2)假定有m个类C1 , C2 ,… Cm 。给定一个未知的数据样本X,分类法将预测X属于具有最高后验概率的类。即是说,简单贝叶斯分类将未知的样本分配给类Ci ,当且仅当 9.3 贝叶斯分类 -简单贝叶斯分类 也就是P(Ci|X)最大。其中的类别Ci就称为最大后验假定。根据贝叶斯公式, 9.3 贝叶斯分类 -简单贝叶斯分类 (3)由于P(X)对于所有的类为常数,只需要P(X|Ci)P(Ci)最大即可。如果类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)= …=P(Cm)。并据此对P(Ci|X)最大化。否则最大化P(X|Ci)P(Ci).而类的先验概率可以用P(Ci)=si|s公式计算,其中si是类Ci中的训练样本数,而s是训练样本总数。 9.3 贝叶斯分类 -简单贝叶斯分类 (4)给定具有许多属性的数据集,直接计算P(X|Ci)的开销非常大。这时可以做类条件独立的简单假定。给定样本的类标号,假定属性值相互条件独立,这样: 概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以由训练样本估值,其中 9.3 贝叶斯分类 -简单贝叶斯分类 (a)若Ak是分类属性,则P(xk|Ci) =sik|si,其中sik是在属性Ak上具有值xk的类Ci的训练样本数,而si是Ci中的训练样本数。 (b)若Ak是连续值属性,则通常假定该属性服

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档