数据预处理方法改进的建议.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
小数定标规范化 数据变换——属性构造 利用已有属性集构造出新的属性,并加入到现有属性集合中以帮助挖掘更深层次的模式知识,提高挖掘结果准确性。 例如:根据宽、高属性,可以构造一个新属性:面积。 数据归约的方法 1.数据立方体聚集: 2.维归约 3.数据压缩 4.数值归约 5.离散化和概念分层生成 数据归约——数据立方体聚集 数据立方体基本概念: 数据立方体是数据的多维建模和表示,由维和事实组成。 维——属性 事实——数据 数据立方体聚集定义——将n维数据立方体聚集为n-1维的数据立方体。 数据归约——数据立方体聚集 数据归约——数据立方体聚集 聚集后的销售数据立方体 下图数据是某商场2000~2002年每季度的销售数据,对这种数据进行聚集,使结果数据汇总每年的总销售额,而不是每季度的总销售额。 聚集后数据量明显减少, 但没有丢失分析任务所需的信息。 对年度内的 各季度数据进行 sum(求和)聚集 数据归约——数据立方体聚集 数据归约——维归约 维归约——去掉无关的属性,减少数据挖掘处理的数据量。 例如:挖掘顾客是否会在商场购买Mp3 播放机的分类规则时,顾客的电话号码很可能与挖掘任务无关,应该可以去掉。 目标:寻找出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布。 维归约——选择相关属性子集 1.逐步向前选择 从一个空属性集(作为属性子集初始值)开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性为止。 2.逐步向后删除 从一个全属性集(作为属性子集初始值)开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止。 3.向前选择和向后删除结合 4.判定树(决策树)归纳 利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现这个决策树上的属性均认为是无关属性,因此将这些属性从初始属性集合删除掉,就可以获得一个较优的属性子集。 数据归约——数据压缩 数据压缩——用数据编码或者变换,得到原始数据的压缩表示。 在数据挖掘领域通常使用的两种数据压缩方法均是有损的: 主成分分析法(PCA) 假定待压缩的数据由N个取自k个维的元组或数据向量组成。主要成分分析并搜索得到c个最能代表数据的k维正交向量,这里 c≤k。这样就可以把原数据投影到一个较小的空间,实现数据压缩 小波转换 利用分箱方法对数据分布情况进行近似 数值归约——直方图(“频率-值”对应关系图) 优点:获取样本的时间仅与样本规模成正比 方法: 不放回简单随机抽样 放回简单随机抽样 聚类抽样:先聚类,再抽样 分层抽样:先分层,再抽样 数值归约——抽样(采样) 数据归约——离散化与概念分层生成 三种类型的属性值: 名称型——e.g. 无序集合中的值 序数——e.g. 有序集合中的值 连续值——e.g. 实数 离散化技术 以通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。 概念分层 概念分层定义了一组由低层概念集到高层概念集的映射。它允许在各种抽象级别上处理数据,从而在多个抽象层上发现知识。用较高层次的概念替换低层次(如年龄的数值)的概念,以此来减少取值个数。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。 概念分层结构可以用树来表示,树的每个节点代表一个概念。 数据归约——概念分层生成 数据预处理方法的一些改进 对数据预处理方法的分析与思考 数据预处理的每一个步骤都有着多种不同的方法。 某些不同的处理方法在不同的阶段可分别使用。 预处理方法中有较多的统计方法。 不同阶段中相同的预处理方法 分箱:可以选用箱均值或箱中位数来平滑噪声,也可以用做数值归约和概念分层产生的离散方法。 回归:在数据清理阶段,既可以用来填充缺失值,又可以平滑噪声,同时在数据归约阶段还可以实现数值归约。 聚类:在平滑噪声时可以使用这种方法,聚类分析可以通过离散化数值属性来达到离散和概念分层,从而实现数值归约。 不同阶段中相同的预处理办法 决策树:可以通过构造决策树预测属性的值来填充缺失值,也可以用决策树进行属性子集选择,实现数值归约。 卡方检验:用来检测两个属性之间的相关性,在数据集成时可以识别冗余属性,数据归约中的数值归约 归纳 大部分方法可以在数据清理和数据归约中使用。 数据清理和数据归约在整个数据预处理中相对更重要,特别是数据归约。 预处理中的统计方法 思考 能否将统计学中的一些方法无变化地、直接地用到数据挖掘的数据预处理中?为什么? 如果不能,这些统计方法又怎么样才能有效的应用到预处理中? 传统统计学VS数据挖

文档评论(0)

139****3928 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档