数据挖掘数据预处理PPT.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘数据预处理PPT

*;为什么要进行数据挖掘?;为什么数据预处理重要?;*;*;*;*;*;*;*;*;例:;均值填补:;*;*;*;例:;*;*;*;异常点;;*;*;*;*;*;为什么要进行标准化?;小数缩放移动小数点,但是要仍然保持原始数据的特征。小数点的移动位数依赖于X的最大绝对值。 典型的缩放是保持数值在-1和1范围内,可以用格式描述: ;2、最小-最大规范化;*;为什么要进行数据的平滑?;*;*;*;*;;2、回归;3、通过自然划分分段;EXAMPLE;为什么要进行数据概化?;*;*;连续属性的离散化就是将数值属性的值域划分为若干子区间,每个区间对应一个离散值。 离散化方法依据不同的标准主要有以下几种划分:有监督和无监督、动态和静态、全局和局部、自顶向下和自底向上等。 ;*;2、动态和静态离散化;*;4、局部和全局离散化;*;*;*;*;我们现在以花萼长( sepal length in cm )属性为例,来进行连续型值属性的离散化。 具体步骤为如下: (1)对要离散化的属性的连续值排序。 (2)根据一定的规则产生候选断点集,构造初始区间。 ;*;*;*;*;*;*;;*;*;;贪心算法;例如:假设有四种硬币,它们的面值分别为二角五分、一角、五分和一分。现在要找给某顾客六角三分钱。 这时,我们会不假思索地拿出2个二角五分的硬币,1个一角的硬币和3个一分的硬币交给顾客。这种找硬币方法与其他的找法相比,所拿出的硬币个数是最少的。 这里,我们下意识地使用了这样的找硬币算法:首先选出一个面值不超过六角三分的最大硬币,即二角五分;然后从六角三分中减去二角五分,剩下三角八分;再选出一个面值不超过三角八分的最大硬币,即又一个二角五分,如此一直做下去。 这个找硬币的方法实际上就是贪心算法。顾名思义,贪心算法总是作出在当前看来是最好的选择。也就是说贪心算法并不从整体最优上加以考虑,它所作出的选择只是在某种意义上的局部最优选择。;但是: 如果硬币的面值改为一分、五分和一角一分3种,而要找给顾客的是一角五分钱。还用贪心算法,我们将找给顾客1个一角一分的硬币和4个一分的硬币。然而3个五分的硬币显然是最好的找法。 显然贪心算法不是对所有问题都能得到整体最优解,但对范围相当广的许多问题它能产生整体最优解。如,图的单源最短路径问题。 在一些情况下,即使贪心算法不能得到整体最优解,但其最终结果却是最优解的很好的近似解。;基于熵的离散化方法是通过贪心算法搜寻给定数据区间内的具有熵值最小的数据点作为断点。 该方法将区间内的每一个数值作为候选断点,计算其熵值,然后从中选出具有最小熵值的数据点作为断点,将区间一分为二,然后再对得到的区间递归地应用以上方法进行离散化。 停止准则是当得到的每个区间中的类标签都是一致时,即停止离散化过程;或者达到某个停止标准时,停止。;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;2、因子分析;*;主成份分析和因子分析的优点;3、聚类分析——K均值聚类分析 ;*;*;*;*;;*;(3)逐步向前选择和逐步向后删除相结合 向前选择和向后删除结合的方法则是将向前选择和向后删除方法结合在一起,每一步选择一个最好的属性,并在其剩余的属性中删除掉一个最坏的属性。 这两种方法也存在着与逐步向前选择方法相同的缺点。;*;*;*;3、评价函数的要求;*;*;*;*;*;*;*;*;*;*;*;*;*;*;3、分类的程序;决策树分类的步骤;例:;4、分类算法的评估;;*; (一)决策树的结构;*;例:;(三)ID3算法(C4.5,C5.0);;*;*;Example(续);Example(end)ID3算法;(四)Decision Tree的建立过程;2、决策树的剪枝(pruning);(1)先剪枝方法;(2)后剪枝方法;应用案例:在农业中的应用;第一步:属性离散化;第二步:概化(泛化);第三步:计算各属性的期望信息;计算各属性的信息增益;第四步:决策树;案例2:银行违约率;;案例3 对电信客户的流失率分析;案例4:在银行中的应用;案例5:个人信用评级;(五)其他算法;1、C4.5与C5.0算法;2、Gini Index算法;集合T包含N个类别的记录,那么其Gini指标就是 如果集合T分成两部分N1 和 N2。则此分割的Gini就是 提供最小Gini split就被选择作为分割的标准(对于每个属性都要经过所有可以的分割方法)。 ;案例:在汽车销售中的应用;;;3、CART算法;*;*;*

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档