数据挖掘与知识获取课件2、数据预处理幻灯片.ppt

数据挖掘与知识获取课件2、数据预处理幻灯片.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1、小波变换(1) 离散小波变换(DWT,Discrete Wavelet Transform)是一种线性信号处理技术,当它作用于数据向量X时,将X转换成数值上不同的小波系数的向量X’。两个向量具有相同的长度。但经过小波变换后的数据可以裁减。仅存储一部分最强的小波系数,就能保留近似的压缩数据。例如:保留大于用户设定的某个阈值的小波系数,其它系数置为0。这样,结果数据表示非常稀疏,利用数据稀疏特点的操作计算速度非常快。小波变换技术也能用于消除噪声等。 1、小波变换(2) 1、小波变换(3) 流行的小波变换包括Haar_2, Daubechies_4和Daubechies_6变换。应用离散小波变换的一般过程使用一种分层的金字塔算法,它在每次叠代将数据减半,导致很快的计算速度。该方法如下(P50): A、输入数据向量的长度L必须是2的整数幂。必要时,通过在数据向量后添加0,满足这一条件。 B、每个变换涉及应用两个函数。第一个使用某种数据平滑,如求和或加权平均。第二个进行加权差分,产生数据的细节特征。 C、两个函数作用于输入数据对,产生两个长度为L/2的数据集。一般地,它们分别代表输入数据平滑后的或低频的版本和它的高频内容。 D、两个函数递归地作用于前面循环得到的数据集,直到结果的数据长度为2。 E、由以上叠代得到的数据集中选择值,指定其为数据变换的小波系数。 2、主成分分析(PCA)(1) 主成分分析所关心的问题是:通过一组变量的几个线性组合来解释这组变量的方差—协方差结构。它的一般目的:一是数据压缩;一是数据解释。(P51:详细理论解释已超出本课程范围) 虽然要求P个成分可以再现一个系统的特性,但大部分特性常常只用少数K个主成分就可以说明。出现这种情况时,这K个主成分中所包含的信息和那P个原变量所包含的几乎一样多。于是这K个主成分就可以用来取代那初始的P个变量,并且由对P个变量的N次测量值所组成的原数据集,就可压缩为对K个主成分的N次测量值所组成的数据集。 2、主成分分析(PCA)(2) 数值归约 通过选择替代的、“较小的”数据表示形式来减少数据量 这些技术可以是有参数的和无参数的 有参方法:使用一个参数模型估计数据,最后只要存储参数即可。 线性回归方法:Y=α+βX 多元回归:线性回归的扩充 对数线性模型:近似离散的多维数据概率分布 无参方法: 直方图 聚类 选样 直方图 直方图使用分箱来近似数据分布,是一种流行的数据归约技术 将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率 如果每个桶只代表单个属性值或频率对,称该桶为单桶。通常,桶表示给定属性的一个连续区间。 桶和属性值的划分规则 等宽 等深 V-最优 MaxDiff 使用单桶的price直方图 ——每个桶代表一个price值/频率对 (P52 图 2-18) 聚类 将数据集划分为聚类,然后通过聚类来表示数据集 如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效 数据可以分层聚类,并被存储在多层索引树中 聚类的定义和算法都有很多选择 抽样 允许用数据的较小随机样本(子集)表示大的数据集 对数据集D的样本选择: s个样本无回放简单随机抽样(SRSWOR):从D的N个元组中抽取s个样本(sN)。任一元组被抽取的概率为1/N。 s个样本有回放简单随机抽样(SRSWR) :过程同上,只是元组被抽取后,将被回放,可能再次被抽取。 聚类抽样:D中元组被分入M个互不相交的聚类中,可在其中的m个聚类上进行简单随机选择(mM) 分层抽样:D被划分为互不相交的“层”,则可通过对每一层的简单随机抽样得到D的分层样本 抽样——SRS SRSWOR (简单随机选 样,不回放) SRSWR (简单随机选 样,回放) 原始数据 抽样——聚类抽样/分层抽样 聚类抽样 分层抽样 SRSWOR SRSWR 离散化 三种类型的属性值: 名称型——e.g. 无序集合中的值 序数——e.g. 有序集合中的值 连续值——e.g. 实数 离散化 将连续属性的范围划分为区间 有效地归约数据 基于判定树的分类挖掘 离散化的数值用于进一步分析 离散化和概念分层 离散化 方法:通过将属性值域划分为区间,减少给定连续属性值的个数。区间的标记可以代替实际的数据值。 分类:监督离散化(离散化过程使用类信息),非监督离散化(离散化过程不使用类信息),自顶向下离散化(分裂),自底向上离散化(合并)。 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来归约数据 数值数据的离散化和概念分层产生 分箱(binning) 分箱技术递归地用于结果划分,

您可能关注的文档

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档