数据挖掘入门课件.pptVIP

下载本文档

0
0
约2.73千字
约 194页
2025-01-13 发布于广西
举报
版权申诉

数据挖掘入门课件.ppt

1、本文档共194页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘

;主要内容;一、数据挖掘概述;数据挖掘概念;*;*;数据挖掘的任务;;;;数据挖掘的任务;分类;;;聚类

;IllustratingClustering;;;预测回归;关联规那么;;序列模式发现;异常检测;;数据挖掘的开展;;数据挖掘系统;数据挖掘系统;数据挖掘系统;数据挖掘与KDD;二、数据预处理;数据预处理;为什么要预处理数据？;数据质量的多维度量;数据预处理的主要任务;数据预处理;空缺值;如何处理空缺值;噪声数据;如何处理噪声数据;数据平滑的分箱方法;聚类;回归;数据预处理;数据集成;处理数据集成中的冗余数据;数据预处理;数据变换 ;数据变换——标准化;数据预处理;数据归约策略;数据立方体聚集;维归约;数据压缩;数值归约;直方图;聚类;选样;选样——SRS;选样——聚类/分层选样;数据预处理;离散化;离散化和概念分层;数据数值的离散化和概念分层生成;通过自然划分分段;自然划分的3-4-5规那么;3-4-5规那么——例子;分类数据的概念分层生成;属性集的规格;三、数据挖掘算法

－分类与预测;分类VS.预测;数据分类：两步过程;第一步：建立模型;第二步：用模型进行分类;准备分类和预测的数据;比较分类方法;决策树分类(DecisionTree);决策树分类;决策树的根本思想;展示结果;AllElectronics顾客数据库类标记的训练样本;属性选择度量;

信息熵

;;信息增益定义式：;;;;第一次迭代后形成的决策树;算法终止条件;buys_computer的决策树，表示AllElectronics顾客是否可能购置计算机;算法流程;优点：

(1)原理简单，生成模式便于理解；

(2)对噪声数据有很好的强壮性。;C4.5算法;;;增益率;对数据源进行数据预处理，将连续性的属性变量进行离散化处理形成决策树的训练集；;CompanyLogo;连续属性的处理;C4．5算法将分类范围从分类的属性扩展到数字属性。如果数据集中存在连续型的描述性属性(数字属性)，C4．5算法首先将这些连续型属性的值分成不同的区间，即“离散化”。通常将连续型属性值“离散化”的方法为：①寻找该连续型属性的最小值，并将它赋值给min，寻找该连续型属性的最大值，并将它赋值给max；②设置区间[min，max]中的N个等分断点Ai，其中，i=1,2,?,N；③分别计算把(min，Ai)和(Ai,max)(i=1,2,3,?,N)作为区间值时的信息增益率〔Ratio〕值，并进行比较；④选取信息增益率最大的A。作为该连续型属性的断点，将属性值设置为[min，A]和(A，max)两个区间值。;离散化处理过程中，C4.5算法是对节点上的每个属性都要计算其信息增益率,然后从中选择信息增益率最大的属性断点。由于在信息增益率计算过程中涉及到对数函数的计算,在计算程序中就得调用库函数,同时随着数据量的增大，计算量也随之增大。这样就增加了计算量时间。因此，在改进的C4.5算法中采用了“Fayyad边界点判定定理”;定义:属性A中的一个值T是一边界点,当且仅当在按A的值排序的实例序列中,存在两个实例e1,e2∈S具有不同的类,使得A(e1)TA(e2),且不存在任何其他的实例e′∈S,使得A(e1)A(e′)A(e2)。A(e)表示实例e的A属性值。S表示实例的集合。

定理:假设T使得E(A,T,S)最小,那么T是一个边界点。其中,A为属性,S为实例集合,E表示平均类熵,T为某一阈值点。

定理说明,对连续属性A,使得实例集合的平均类熵到达最小值的T,总是处于实例序列中两个相邻异类实例之间。;由Fayyad边界点判定定理可知,无需检查每一个阈值点,只要检查相邻不同类别的边界点即可。为了保持与C4.5的一致性,这里边界点选为相邻不同类别的属性值中较小的一个。例如,当排序后的实例属性值为{v1,v2,?,v10},其中前3个属于类别C1,中间4个属于类别C2,最后3个属于类别C3,因此只需考察两个边界点v3与v7

而无需检查其余7个阈值点,然后选择v3与v7中使得平均类熵最小的那个作为最优阈值。;例如—高尔夫;最终生成的决策树;;;AllElectronics顾客数据库类标记的训练样本;为了找出数据集的分裂准那么，需要计算每个属性的指标。;;Gini指标;同样的方法，评估节点，;CART生成二叉树;决策树剪枝;决策树剪枝——先剪枝;找出“完全”生长的