第七章-分类与预测精品课件.pptVIP

  1. 1、本文档共199页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

《数据挖掘》;引言—要挖掘知识的类型;引言;分类是数据挖掘中重要的任务;分类方法的类型;第6章;6.1分类与预测的基本知识

6.2基于距离的分类算法

6.3决策树分类方法

6.4贝叶斯分类方法

6.5规则归纳方法*;6.1分类和预测的基本知识;1.分类?预测?;基本概念;数据分类过程;分类过程的第一步:学习建模;数据分类过程;分类过程的第二步:分类测试;分类过程示意图;有指导的学习VS.无指导的学习;数据预测;示例;示例;2.分类和预测的基本问题?;问题(1):数据准备;问题(2):评估分类模型;6.2基于距离的分类算法;1.基于距离分类的基本思想?;基于距离的分类算法的思路;基于距离的分类算法的思路;;;;基于距离的分类算法的思路;基于距离的分类算法的一般性描述;基于距离的分类方法的直观解释;距离分类例题;*;2几种常见的距离分类算法?;几种常见的距离分类算法;(1)K-近邻分类算法;(1)K-近邻分类算法;KNN的直观解释;KNN的直观解释;形象的例子;KNN的特点;6.3决策树分类算法;1.决策树的基本概念?;决策树基本概念;基本概念;决策树的基本组成;基本概念;.;2.决策树的生成算法?;决策树的生成算法;决策树的生成算法;决策树的生成算法;(1)CLS(ConceptLearningSystem)算法;人员;人员;眼睛颜色;CLS算法;CLS算法存在的问题;学生;采用不同的测试属性及其先后顺序将会生成不同的决策树;牛奶;(2)ID3算法;.;(2)ID3算法;ID3–信息量大小的度量;上式中,对数底数可以为任何数,不同的取值对应了熵的不同单位。

通常取2,并规定当p(ai)=0时,=0;ID3-属性选择方法;(6.2);(6.4);ID3-属性选择方法;Gain(S,A)是属性A在集合S上的信息增益

Gain(S,A)=Entropy(S)–Entropy(S,A)

Gain(S,A)越大,说明选择测试属性对分类提供的信息越多.;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;计数;ID3算法实际应用-在电信行业应用实例(1);ID3算法实际应用-在电信行业应用实例(1);ID3算法实际应用-在电信行业应用实例(1);(1)数据预处理

数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中(该用户相关数据存储在其CRM中),是长期积累的结果。但往往不适合直接挖掘,需要做数据的预处理工作,一般包括数据的选择(选择相关的数据)、净化(消除冗余数据)、转换、归约等。数据预处理工作准备是否充分,对于挖掘算法的效率乃至正确性都有关键性的影响。;(1)数据预处理

该公司经过多年的电脑化管理,已有大量的客户个人基本信息(文中简称为客户信息表)。在客户信息表中,有很多属性,如姓名用户号码、用户标识、用户身份证号码(转化为年龄)、在网时间(竣工时间)、地址、职业、用户类别、客户流失(用户状态)等等,数据准备时必须除掉表中一些不必要的属性,一般可采用面向属性的归纳等方法去掉不相关或弱相关属性。;1)属性删除:

将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等,它们的取值太多且无法在该取值域内找到概化操作符,应将其删除,得到表1。;2)属性概化:

用属性概化阈值控制技术沿属性概念分层上卷或下钻进行概化。

文化程度分为3类:W1初中以下(含初中),W2高中(含中专),W3大学(专科、本科及以上);

职业类别:按工作性质来分共分3类:Z1一Z3;

缴费方式:托收:T1,营业厅缴费:T2,充值卡:T3。;2)属性概化:

连续型属性概化为区间值。表中年龄、费用变化率和在网时间为连续型数据,由于建立决策树时,用离散型数据进行处理速度最快,因此对连续型数据进行离散化处理.

根据专家经验和实际计算信息增益,在“在网时长”属性中,通过检测每个划分,得到在阈值为5年时信息增益最大,从而确定最好的划分是在5年处,则这个属性的范围就变为{<=5,>5:H1,H2}。

而在“年龄”属性中,信息增益有两个锋值,分别在40和50处,因而该属性的范围变为{<=40,>40-<=50,>50}即变为{青年,中年,老年:N1,N2,N3};

费用变化率:指((当月话费-近3个月的平均话费)/近3个月的平均话费)×%>0,F1:<=30%,F2:30%-99%,F3:=100%变为

{F1,F2,F3}。;;;ID3算法小结;ID3算法小结;

文档评论(0)

jiangwen666 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档