网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘入门课件.pptVIP

  1. 1、本文档共194页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘

;主要内容;一、数据挖掘概述;数据挖掘概念;*;*;数据挖掘的任务;;;;数据挖掘的任务;分类;;;聚类

;IllustratingClustering;;;预测回归;关联规那么;;序列模式发现;异常检测;;数据挖掘的开展;;数据挖掘系统;数据挖掘系统;数据挖掘系统;数据挖掘与KDD;二、数据预处理;数据预处理;为什么要预处理数据?;数据质量的多维度量;数据预处理的主要任务;数据预处理;空缺值;如何处理空缺值;噪声数据;如何处理噪声数据;数据平滑的分箱方法;聚类;回归;数据预处理;数据集成;处理数据集成中的冗余数据;数据预处理;数据变换 ;数据变换——标准化;数据预处理;数据归约策略;数据立方体聚集;维归约;数据压缩;数值归约;直方图;聚类;选样;选样——SRS;选样——聚类/分层选样;数据预处理;离散化;离散化和概念分层;数据数值的离散化和概念分层生成;通过自然划分分段;自然划分的3-4-5规那么;3-4-5规那么——例子;分类数据的概念分层生成;属性集的规格;三、数据挖掘算法

-分类与预测;分类VS.预测;数据分类:两步过程;第一步:建立模型;第二步:用模型进行分类;准备分类和预测的数据;比较分类方法;决策树分类(DecisionTree);决策树分类;决策树的根本思想;展示结果;AllElectronics顾客数据库类标记的训练样本;属性选择度量;

信息熵

;;信息增益定义式:;;;;第一次迭代后形成的决策树;算法终止条件;buys_computer的决策树,表示AllElectronics顾客是否可能购置计算机;算法流程;优点:

(1)原理简单,生成模式便于理解;

(2)对噪声数据有很好的强壮性。;C4.5算法;;;增益率;对数据源进行数据预处理,将连续性的属性变量进行离散化处理形成决策树的训练集;;CompanyLogo;连续属性的处理;C4.5算法将分类范围从分类的属性扩展到数字属性。如果数据集中存在连续型的描述性属性(数字属性),C4.5算法首先将这些连续型属性的值分成不同的区间,即“离散化”。通常将连续型属性值“离散化”的方法为:①寻找该连续型属性的最小值,并将它赋值给min,寻找该连续型属性的最大值,并将它赋值给max;②设置区间[min,max]中的N个等分断点Ai,其中,i=1,2,?,N;③分别计算把(min,Ai)和(Ai,max)(i=1,2,3,?,N)作为区间值时的信息增益率〔Ratio〕值,并进行比较;④选取信息增益率最大的A。作为该连续型属性的断点,将属性值设置为[min,A]和(A,max)两个区间值。;离散化处理过程中,C4.5算法是对节点上的每个属性都要计算其信息增益率,然后从中选择信息增益率最大的属性断点。由于在信息增益率计算过程中涉及到对数函数的计算,在计算程序中就得调用库函数,同时随着数据量的增大,计算量也随之增大。这样就增加了计算量时间。因此,在改进的C4.5算法中采用了“Fayyad边界点判定定理”;定义:属性A中的一个值T是一边界点,当且仅当在按A的值排序的实例序列中,存在两个实例e1,e2∈S具有不同的类,使得A(e1)TA(e2),且不存在任何其他的实例e′∈S,使得A(e1)A(e′)A(e2)。A(e)表示实例e的A属性值。S表示实例的集合。

定理:假设T使得E(A,T,S)最小,那么T是一个边界点。其中,A为属性,S为实例集合,E表示平均类熵,T为某一阈值点。

定理说明,对连续属性A,使得实例集合的平均类熵到达最小值的T,总是处于实例序列中两个相邻异类实例之间。;由Fayyad边界点判定定理可知,无需检查每一个阈值点,只要检查相邻不同类别的边界点即可。为了保持与C4.5的一致性,这里边界点选为相邻不同类别的属性值中较小的一个。例如,当排序后的实例属性值为{v1,v2,?,v10},其中前3个属于类别C1,中间4个属于类别C2,最后3个属于类别C3,因此只需考察两个边界点v3与v7

而无需检查其余7个阈值点,然后选择v3与v7中使得平均类熵最小的那个作为最优阈值。;例如—高尔夫;最终生成的决策树;;;AllElectronics顾客数据库类标记的训练样本;为了找出数据集的分裂准那么,需要计算每个属性的指标。;;Gini指标;同样的方法,评估节点,;CART生成二叉树;决策树剪枝;决策树剪枝——先剪枝;找出“完全”生长的

文档评论(0)

寒傲似冰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8071104010000026

1亿VIP精品文档

相关文档