数据挖掘概述2专用课件.ppt

  1. 1、本文档共119页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概述2专用课件

敬请各位同学提出宝贵意见 非常感谢 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点72,划分后类别统计如下 3 5 =70(T2) 0 2 70(T1) 类=Y 类=N 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点80, 对于候选点87, 对于候选点92, 对于候选点97, 对于候选点110, 对于候选点122, 对于候选点172, 最佳候选点 根据上面的分析,可把“年收入”属性划分成两个区间(0,97)和[97,10000)分别设为属性A1和A2,则原数据集变为: 是 90K (A1) 单身 否 10 否 75K (A1) 已婚 否 9 是 85K (A1) 单身 否 8 否 220K (A2) 离异 是 7 否 60K (A1) 已婚 否 6 是 95K (A1) 离异 否 5 否 120K (A2) 已婚 是 4 否 70K (A1) 单身 否 3 否 100K (A2) 已婚 否 2 否 125K(A2) 单身 是 1 拖欠贷款 年收入 婚姻状况 有房 顾客Id 再按前面的方法构造决策树,便可对类似的顾客:“否,单身,100K”进行分类判别。 七、朴素贝叶斯分类法 1.朴素贝叶斯分类方法描述 设样本集T有n个属性:A1,A2,…,An,可能的类别有m个: C1,C2,…,Cm,待分类的样本为x={X1,X2,…Xn},分别计算条件概率: 则条件概率P(Ci|X)最大所对应的类Ci即为X所在的类。 在公式(1)中,计算等式左边的每个条件概率时,右边的分母相同,因此只需要计算分子,然后比较大小即可。 各概率的计算如下: 另外,用朴素贝叶斯分类时还需假设各属性之间相互独立,此时有: 2.条件概率 P(xj|Ci)的估计 条件概率 P(xj|Ci)的估计值分两种情况 情形1. 第j个属性Aj为离散型 的情况 此时,条件概率 P(xj|Ci)可按如下公式计算: 例1:给定训练样本集如下,请用贝叶斯方法判别对象:“rain,hot,high,true”的类别。 N T H M R Y F N H O Y T H M O Y T N M O Y F N M R Y F N C S N F H M S Y T N C O N T N C R Y F N C R Y F H M R Y F H H O N T H H S N F H H S Play Windy Humi Temp Outlook 解:分类属性Play有两个类, Play=yes(C1)和其Play=no(C2),样本数统计如下: 于是P(C1)=9/14, P(C2)=5/14 对于Outlook属性,数据汇总如下表: 5 9 样本数 Play=no(C2) Play=yes(C1) 样本集T 于是各条件概率为: 5 9 Total 2 3 Rain 0 5 Overcast 3 1 Sunny C2(N) C1(Y) Outlook , , , 同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下: 2 2 hot 2 4 mild 1 3 cool 5 Play=no 9 total Play=yes Temperature 于是各条件概率为: , , , 对于Humidity属性和Windy属性,统计如下: 4 3 Normal 1 6 high 5 Play=no 9 total Play=yes Humidity 3 3 True 2 6 False 5 Play=no 9 total Play=yes Windy 试计算其“条件概率”。 对于待分类样本: 分别计算以下两个概率: =0.333*0.22*0.33*0.3*0.643=0.0053 =0.4*0.4*0.8*0.6*0.357=0.0274 ,因此 为第二类,即不适合比赛。 情形2. 第j个属性Aj为连续型 的情况 是 90 单身 否 10 否 75 已婚 否 9 是 85 单身 否 8 否 220 离婚 是 7 否 60 已婚 否 6 是 95 离婚 否 5 否 120 已婚 是 4 否 70 但是 否 3 否 100 已婚 否 2 否 125 单身 是 1 拖欠贷款 年收入 婚姻状况 有房 tid 考虑如下的训练样本集,如何判别样本 的类别? 属性“年收入”为连续型数据类型,此时如果再用公式 来估计条件概率已不合适,例如,若新样

文档评论(0)

ustt002 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档