第2章数据预处理.PPTVIP

下载本文档

0
0
约5.62千字
约 63页
2025-12-04 发布于浙江
举报
版权申诉

第2章数据预处理.PPT

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

①最小-最大规范化对原始数据进行线性变换。假定minA，和maxA分别为属性A的最小和最大值。最小—最大规范化通过计算将属性A的一个值v影射到v’[new_minA,new-maxA](3.2)EX1假定属性income的最小与最大值分别为$12000和$98000。我们想映射income到区间[0，1]。根据最小-最大规范化，income值$73000将变换为②Z-score规范化（或零-均值规范化）该方法是根据属性A的平均值和标准差规范化。A的值v被规范化为v’，由下式计算：(3.3)EX2假定属性income的平均值和标准差分别为$54000和$16000。使用z-score规范化，值$73600被转化为③小数定标规范化(十基数变换）通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值v被规范化为，由下式计算其中，j是使max(|v’|1)成立最小整数。EX3假定A的值由-986到917。A的最大绝对值为986。为使用小数定标规范化，我们用1000（即j=3）除每一值。这样，-986被规范化为-0.986。注意，规范化将原来的数据改变很多，特别是上述的后两种方法。有必要保留规范化参数（如平均值和标准差，如果使用z-score规范化），以便将来的数据可以用一致的方式规范化。4.5数据规约（消减）数据立方合计维数削减数据压缩数据块消减离散化与概念层次生成1、数据立方体合计主要用于构造数据立方---建立数据仓库如对某公司三年销售合计处理，可用一个三维数据立方体（时间，商品，部门）表示，它从三个角度描述相应时空的销售额。每个属性都可对应一个概念层次树，以帮助进行多抽象层次的数据分析。2、维归约----主要用于检测并删除不相关、弱相关或冗余的属性维。用于数据分析的数据可能包含数以百计的属性，其中大部分属性与挖掘任务不相关，是冗余的。例如，如果分析任务是按顾客听到广告后，是否愿意在A11E1ectronics买流行的新款CD将顾客分类，与属性age，music不同，诸如顾客的电话号码等属性多半是不相关的。属性子集选择的目标是找出最小属性子集，使得数据类的概率分布尽可能地接近原分布。“如何找出原属性的一个‘好的’子集?”d个属性有2d个可能的子集。穷举搜索找出属性的最佳子集可能是不现实的，特别是当d和数据类的数目增加时。因此，对于属性子集选择，通常使用压缩搜索空间的启发式算法。它们的策略是做局部最优选择，期望由此导致全局最优解。(1)逐步向前选择(逐步添加方法）：该过程由空属性集开始，选择原属性集中最好的属性，并将它添加到该集合中。在其后的每一次迭代，将原属性集剩下的属性中的最好的属性添加到该集合中。如遗传算法遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法。(2)逐步向后删除(逐步消减方法）：该过程由整个属性集开始。在每一步，删除掉在属性集中的最坏属性。直到无法选择出最坏属性或满足一定的阈值为止。(3)向前选择和向后删除的结合：向前选择和向后删除方法可以结合在一起，每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。(4)判定树归纳判定树算法，如ID3和C4．5最初是用于分类的,也可用于构造属性子集利用决策树的归纳方法对初始数据进行分类归纳学习，获得一个初始决策树，所有没出现在这个树上的属性均认为是无关属性，删除无关属性之后，就可获得一个较优的属性子集。第3章数据预处理3.1预处理的必要性目前，数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究。事实上，数据预处理对数据挖掘十分重要，一些成熟的算法对其处理的数据集合都有一定的要求：比如数据的完整性好，冗余性小，属性的相关性小等。数据预处理是数据挖掘的重要一环，而且必不可少。要使挖掘算法挖掘出有效的知识，必须为其提供干净，准确，简洁的数据。然而，实际应用系统中收集的数据通常是“脏”数据1、杂乱性如性别：