数据挖掘与知识获取课件2、数据预处理幻灯片.ppt

下载文档

3
0
约9.74千字
约 49页
2018-03-26 发布于广东
举报
版权申诉
保障服务

数据挖掘与知识获取课件2、数据预处理幻灯片.ppt

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1、小波变换(1) 离散小波变换(DWT，Discrete Wavelet Transform)是一种线性信号处理技术，当它作用于数据向量X时，将X转换成数值上不同的小波系数的向量X’。两个向量具有相同的长度。但经过小波变换后的数据可以裁减。仅存储一部分最强的小波系数，就能保留近似的压缩数据。例如：保留大于用户设定的某个阈值的小波系数，其它系数置为0。这样，结果数据表示非常稀疏，利用数据稀疏特点的操作计算速度非常快。小波变换技术也能用于消除噪声等。 1、小波变换(2) 1、小波变换(3) 流行的小波变换包括Haar_2, Daubechies_4和Daubechies_6变换。应用离散小波变换的一般过程使用一种分层的金字塔算法，它在每次叠代将数据减半，导致很快的计算速度。该方法如下(P50)： A、输入数据向量的长度L必须是2的整数幂。必要时，通过在数据向量后添加0，满足这一条件。 B、每个变换涉及应用两个函数。第一个使用某种数据平滑，如求和或加权平均。第二个进行加权差分，产生数据的细节特征。 C、两个函数作用于输入数据对，产生两个长度为L/2的数据集。一般地，它们分别代表输入数据平滑后的或低频的版本和它的高频内容。 D、两个函数递归地作用于前面循环得到的数据集，直到结果的数据长度为2。 E、由以上叠代得到的数据集中选择值，指定其为数据变换的小波系数。 2、主成分分析（PCA）（1）主成分分析所关心的问题是：通过一组变量的几个线性组合来解释这组变量的方差—协方差结构。它的一般目的：一是数据压缩；一是数据解释。(P51:详细理论解释已超出本课程范围) 虽然要求P个成分可以再现一个系统的特性，但大部分特性常常只用少数K个主成分就可以说明。出现这种情况时，这K个主成分中所包含的信息和那P个原变量所包含的几乎一样多。于是这K个主成分就可以用来取代那初始的P个变量，并且由对P个变量的N次测量值所组成的原数据集，就可压缩为对K个主成分的N次测量值所组成的数据集。 2、主成分分析（PCA）（2）数值归约通过选择替代的、“较小的”数据表示形式来减少数据量这些技术可以是有参数的和无参数的有参方法：使用一个参数模型估计数据，最后只要存储参数即可。线性回归方法：Y=α+βX 多元回归：线性回归的扩充对数线性模型：近似离散的多维数据概率分布无参方法：直方图聚类选样直方图直方图使用分箱来近似数据分布，是一种流行的数据归约技术将某属性的数据划分为不相交的子集，或桶，桶中放置该值的出现频率如果每个桶只代表单个属性值或频率对，称该桶为单桶。通常，桶表示给定属性的一个连续区间。桶和属性值的划分规则等宽等深 V-最优 MaxDiff 使用单桶的price直方图 ——每个桶代表一个price值/频率对（P52 图 2-18）聚类将数据集划分为聚类，然后通过聚类来表示数据集如果数据可以组成各种不同的聚类，则该技术非常有效，反之如果数据界线模糊，则方法无效数据可以分层聚类，并被存储在多层索引树中聚类的定义和算法都有很多选择抽样允许用数据的较小随机样本（子集）表示大的数据集对数据集D的样本选择： s个样本无回放简单随机抽样（SRSWOR）：从D的N个元组中抽取s个样本（sN）。任一元组被抽取的概率为1/N。 s个样本有回放简单随机抽样（SRSWR）：过程同上，只是元组被抽取后，将被回放，可能再次被抽取。聚类抽样：D中元组被分入M个互不相交的聚类中，可在其中的m个聚类上进行简单随机选择（mM）分层抽样：D被划分为互不相交的“层”，则可通过对每一层的简单随机抽样得到D的分层样本抽样——SRS SRSWOR (简单随机选样，不回放) SRSWR (简单随机选样，回放) 原始数据抽样——聚类抽样/分层抽样聚类抽样分层抽样 SRSWOR SRSWR 离散化三种类型的属性值：名称型——e.g. 无序集合中的值序数——e.g. 有序集合中的值连续值——e.g. 实数离散化将连续属性的范围划分为区间有效地归约数据基于判定树的分类挖掘离散化的数值用于进一步分析离散化和概念分层离散化方法：通过将属性值域划分为区间，减少给定连续属性值的个数。区间的标记可以代替实际的数据值。分类：监督离散化（离散化过程使用类信息），非监督离散化（离散化过程不使用类信息），自顶向下离散化（分裂），自底向上离散化（合并）。概念分层通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来归约数据数值数据的离散化和概念分层产生分箱（binning）分箱技术递归地用于结果划分，