数据预处理.ppt

下载文档 降价啦

4
0
约6.48千字
约 47页
2017-06-04 发布于湖北
举报
版权申诉
保障服务

数据预处理.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据预处理要点

主要内容 2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成 2.4 数据变换 2.5 数据归约由于现实世界的数据一般是脏的、不完整的和不一致的，且一些错误不可避免。因此必须先进行预处理，改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。数据预处理的形式 2.2 数据清理数据清理的任务：填充缺失的值光滑噪声并识别离群点纠正数据中的不一致回归 2.3 数据集成数据集成合并多个数据源中的数据，存放在一个一致的数据库（如数据仓库）中。源数据可能包括多个数据库，数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。属性的相关性分析规范化 1）最小-最大规范化：将原始数据v经线性变换，映射到区间[new_minA, new_maxA] 例如:income的最大，最小值分别为9000，2000，则将它的值映射到[0，1]时，若income的值6800规范后为：（6800-2000）/（9000-2000）*（1-0）+0=0.686 规范化 2） z-score规范化（零均值规范化）：属性A的值基于A的平均值和标准差规范化。在最大最小值未知适用 2.5 数据归约 Data Reduction 数据归约策略（1）数据立方体聚集：对数据立方体做聚集操作（2）维归约：检测并删除不相关、弱相关或冗余的属性和维。（3）数据压缩：（4）数值归约：用规模较小的数据表示、替换或估计原始数据（5）离散化和概念分层产生属性的原始数值用区间值或较高层的概念替换注意：用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间 2.5.1 数据立方体聚集数据立方体存储多维聚集信息，提供对预计算的汇总数据进行快速访问。如：立方体内存储季度销售额，若对年销售额感兴趣，可对数据执行聚集操作，例如sum()等。 2.5.2 维归约通过删除不相关或冗余的属性（或维）减小数据集。其目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。通常采用压缩搜索空间的启发式算法。逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳 2.5.3 数据压缩分为无损和有损两种。主要方法：小波变换（DWT）：有损主成分分析（PCA）：有损小波变换输入数据向量D，小波变换会将它转换为另一个向量D’ 虽然两个向量长度相同，但是小波变换后的向量D’可以裁减。用户根据实际需要保留其中一部分数据，从而实现了数据的压缩。主要成分分析假设需要压缩的数据是由 N个数据向量组成，共有k个维度（属性或特征)。主要成分分析则是从这N个向量里找出最能代表数据的c个正交向量。这样，原来的数据就投影到该较小的集合中，导致数据压缩。 2.5.4 数值归约通过选择替代的、“较小的”数据表示形式来减少数据量。可以分为参数方法和非参数方法。参数方法：是利用一个模型，通过计算获得原来的数据，因此只需要存储模型的参数即可常用方法：回归（regression ）和对数线性模型非参数方法：不使用模型常用方法：直方图、聚类、抽样线性回归模型线性回归方法是利用一条直线模型对数据进行拟合。例如：利用自变量 X的一个线性函数可以拟合因变量Y的输出，其线性函数模型为： Y=α+ βX 此时，我们只需要存储X的数据即可，根据这个模型，就可以预测出Y的取值。聚类 1.首先，将数据划分为群或簇，使得在每一个簇中的对象“类似”，但与其他簇中的对象“不类似”。 2.其次，为这些簇赋值，所有包含在同一个簇中的对象的值相同。注意：如果数据可以组成各种不同的聚类，则该技术非常有效，反之如果数据界线模糊，则方法无效。抽样用数据的小得多的随机样本（子集）表示大型数据集。抽样方法 s个样本无放回简单随机抽样（SRSWOR） s个样本有放回简单随机抽样（SRSWR）聚类抽样分层抽样 2.5.5 数据离散化和概念分层产生 1.数据离散化将属性（连续取值）域值范围分为若干区间，每个区间对应一个离散值 2.为什么进行离散化？ 1）在机器学习和数据挖掘中，很多算法如决策树、关联规则及基于粗糙集理论的许多方法，是用来处理离散型数据的，对于连续型数据却不适用；另外，有些算法即使能处理连续型数据，挖掘和学习也没有处理离散型数据有用和有效。 2）离散化后可以达到归约数据的目的。概念分层(concept hierarchy) ：通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来规约数据数值数据的离散化典型方法（所有方法均可递归应用）