- 1、本文档共119页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概述2专用课件
敬请各位同学提出宝贵意见 非常感谢 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点72,划分后类别统计如下 3 5 =70(T2) 0 2 70(T1) 类=Y 类=N 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点80, 对于候选点87, 对于候选点92, 对于候选点97, 对于候选点110, 对于候选点122, 对于候选点172, 最佳候选点 根据上面的分析,可把“年收入”属性划分成两个区间(0,97)和[97,10000)分别设为属性A1和A2,则原数据集变为: 是 90K (A1) 单身 否 10 否 75K (A1) 已婚 否 9 是 85K (A1) 单身 否 8 否 220K (A2) 离异 是 7 否 60K (A1) 已婚 否 6 是 95K (A1) 离异 否 5 否 120K (A2) 已婚 是 4 否 70K (A1) 单身 否 3 否 100K (A2) 已婚 否 2 否 125K(A2) 单身 是 1 拖欠贷款 年收入 婚姻状况 有房 顾客Id 再按前面的方法构造决策树,便可对类似的顾客:“否,单身,100K”进行分类判别。 七、朴素贝叶斯分类法 1.朴素贝叶斯分类方法描述 设样本集T有n个属性:A1,A2,…,An,可能的类别有m个: C1,C2,…,Cm,待分类的样本为x={X1,X2,…Xn},分别计算条件概率: 则条件概率P(Ci|X)最大所对应的类Ci即为X所在的类。 在公式(1)中,计算等式左边的每个条件概率时,右边的分母相同,因此只需要计算分子,然后比较大小即可。 各概率的计算如下: 另外,用朴素贝叶斯分类时还需假设各属性之间相互独立,此时有: 2.条件概率 P(xj|Ci)的估计 条件概率 P(xj|Ci)的估计值分两种情况 情形1. 第j个属性Aj为离散型 的情况 此时,条件概率 P(xj|Ci)可按如下公式计算: 例1:给定训练样本集如下,请用贝叶斯方法判别对象:“rain,hot,high,true”的类别。 N T H M R Y F N H O Y T H M O Y T N M O Y F N M R Y F N C S N F H M S Y T N C O N T N C R Y F N C R Y F H M R Y F H H O N T H H S N F H H S Play Windy Humi Temp Outlook 解:分类属性Play有两个类, Play=yes(C1)和其Play=no(C2),样本数统计如下: 于是P(C1)=9/14, P(C2)=5/14 对于Outlook属性,数据汇总如下表: 5 9 样本数 Play=no(C2) Play=yes(C1) 样本集T 于是各条件概率为: 5 9 Total 2 3 Rain 0 5 Overcast 3 1 Sunny C2(N) C1(Y) Outlook , , , 同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下: 2 2 hot 2 4 mild 1 3 cool 5 Play=no 9 total Play=yes Temperature 于是各条件概率为: , , , 对于Humidity属性和Windy属性,统计如下: 4 3 Normal 1 6 high 5 Play=no 9 total Play=yes Humidity 3 3 True 2 6 False 5 Play=no 9 total Play=yes Windy 试计算其“条件概率”。 对于待分类样本: 分别计算以下两个概率: =0.333*0.22*0.33*0.3*0.643=0.0053 =0.4*0.4*0.8*0.6*0.357=0.0274 ,因此 为第二类,即不适合比赛。 情形2. 第j个属性Aj为连续型 的情况 是 90 单身 否 10 否 75 已婚 否 9 是 85 单身 否 8 否 220 离婚 是 7 否 60 已婚 否 6 是 95 离婚 否 5 否 120 已婚 是 4 否 70 但是 否 3 否 100 已婚 否 2 否 125 单身 是 1 拖欠贷款 年收入 婚姻状况 有房 tid 考虑如下的训练样本集,如何判别样本 的类别? 属性“年收入”为连续型数据类型,此时如果再用公式 来估计条件概率已不合适,例如,若新样
您可能关注的文档
- 敬畏 2013.12专用课件.ppt
- 敬老院回访策划书供参习.doc
- 敬畏自然优秀课件专用课件.ppt
- 敬语 谦辞专用课件.ppt
- 敬辞与谦辞例举专用课件.ppt
- 数 字 成 语供参习.doc
- 数_学_试_题供参习.doc
- 数万患者涌入广西巴马望延长寿命供参习.doc
- 敬老院献爱心活动专用课件.ppt
- 敬酒礼仪专用课件.ppt
- 半导体的设计行业市场变化分析及未来五年行业预测报告.docx
- 反渗透水处理行业分析报告及未来三年行业发展报告.docx
- 动画影片的发行行业分析报告及未来三年行业发展报告.docx
- 卫星传输带宽出租行业五年发展洞察报告.docx
- 江苏省南京市第二十九中2025届高三第二次联考生物试卷含解析.doc
- 厨余垃圾资源化利用行业五年发展预测分析报告.docx
- 在线电子书籍和杂志的出版行业五年发展预测分析报告.docx
- 福建省福州市罗源第一中学2025届高三下学期一模考试生物试题含解析.doc
- 图画装框行业分析报告及未来三年行业发展报告.docx
- 包裹分发中心行业市场需求分析及未来三年行业预测报告.docx
文档评论(0)