第七章分类与预测选编.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章分类与预测选编

《数据挖掘》;*;引 言;*;*; 第 6 章;6.1 分类与预测的基本知识 6.2 基于距离的分类算法 6.3 决策树分类方法 6.4 贝叶斯分类方法 6.5 规则归纳方法*;6.1 分类和预测的基本知识;1. 分类?预测?;*;*;*;*;*;*;有指导的学习 VS. 无指导的学习;*;*;*;2. 分类和预测的基本问题?;*;*;6.2 基于距离的分类算法;1. 基于距离分类的基本思想?;*;*;;;;*;*;*;*;*;2 几种常见的距离分类算法?;*;*;*;KNN的直观解释;KNN的直观解释;形象的例子;KNN的特点;6.3 决策树分类算法;1. 决策树的基本概念?;决策树基本概念;*;*;*;*;2. 决策树的生成算法?;*;*;*;(1)CLS(Concept Learning System)算法;人员;人员;眼睛颜色;CLS算法;CLS算法存在的问题;学生;采用不同的测试属性及其先后顺序将会生成不同的决策树;牛奶;(2)ID3算法;*;(2)ID3算法;ID3 –信息量大小的度量; 上式中,对数底数可以为任何数,不同的取值对应了熵的不同单位。 通常取2,并规定当p(ai)=0时, =0;*;*;*;*;Gain(S, A)是属性A在集合S上的信息增益 Gain(S, A)= Entropy(S) –Entropy(S, A) Gain(S, A)越大,说明选择测试属性对分类提供的信息越多.;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;ID3算法实际应用-在电信行业应用实例(1);ID3算法实际应用-在电信行业应用实例(1);ID3算法实际应用-在电信行业应用实例(1);(1)数据预处理 数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中(该用户相关数据存储在其CRM中),是长期积累的结果。但往往不适合直接挖掘,需要做数据的预处理工作,一般包括数据的选择(选择相关的数据)、净化(消除冗余数据)、转换、归约等。数据预处理工作准备是否充分,对于挖掘算法的效率乃至正确性都有关键性的影响。;(1)数据预处理 该公司经过多年的电脑化管理,已有大量的客户个人基本信息(文中简称为客户信息表)。在客户信息表中,有很多属性,如姓名用户号码、用户标识、用户身份证号码(转化为年龄)、在网时间(竣工时间)、地址、职业、用户类别、客户流失(用户状态)等等,数据准备时必须除掉表中一些不必要的属性,一般可采用面向属性的归纳等方法去掉不相关或弱相关属性。 ;1)属性删除: 将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等,它们的取值太多且无法在该取值域内找到概化操作符,应将其删除,得到表1。 ;2)属性概化: 用属性概化阈值控制技术沿属性概念分层上卷或下钻进行概化。 文化程度分为3类:W1初中以下(含初中),W2高中(含中专),W3大学(专科、本科及以上); 职业类别:按工作性质来分共分3类:Z1一Z3; 缴费方式:托收:T1,营业厅缴费:T2,充值卡:T3。;2)属性概化: 连续型属性概化为区间值。表中年龄、费用变化率和在网时间为连续型数据,由于建立决策树时,用离散型数据进行处理速度最快,因此对连续型数据进行离散化处理. 根据专家经验和实际计算信息增益,在“在网时长”属性中,通过检测每个划分,得到在阈值为5年时信息增益最大,从而确定最好的划分是在5年处,则这个属性的范围就变为{=5,5:H1,H2}。 而在“年龄”属性中,信息增益有两个锋值,分别在40和50处,因而该属性的范围变为{=40,40-=50,50}即变为{青年,中年,老年:N1,N2,N3}; 费用变化率???指((当月话费-近3个月的平均话费)/近3个月的平均话费)×%0,F1:=30%,F2:30%-99%, F3:=100%变为 {F1,F2,F3}。 ;;;ID3算法小结;ID3算法小结;(3)C4.5算法;*;(3)C4.5算法;多;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;(4)CART算法;*;*;*;*;*;*;*;*;2. 决策树剪枝?;*;*;*;*;3. 提取分类规则?;*;*;*;*;6.4 贝叶斯分类方法;1. 贝叶斯定理?;*;*;*;*;*;*;*;*;*;*;*;*;示例1;示例1;*;*;*;贝叶斯分类; 先验概率P(cj);先验概率P(cj); 后验概率P(x|cj)指的是当已知类别为cj的条件下,样本x出现的概率。 ;后验概率P(cj |x);贝叶斯分类;2

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档