数据仓库与数据挖掘技术 第6章 数据预处理技术.ppt

数据仓库与数据挖掘技术 第6章 数据预处理技术.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章 数据预处理技术 主讲人:孙水华 副教授 信息科学与工程学院 目 录 数据预处理概述 数据清理 数据集成 数据变换 数据归约 小 结 6.6 小结 1)最小-最大规范化。假定mA和MA分别为属性A的最小值和最大值。最小-最大规范化通过计算 将A的值v映射到区间[new_mA,new_MA]中的v’。 最小-最大规范化对原始数据进行线性变换,保持原始数据值之间的联系。如果今后的输入落在A的原始数据值域之外,该方法将面临“越界”错误。 2)z-score规范化(零均值规范化)。把属性A的值v基于A的均值和标准差规范化为v’,通过下列公式计算: 其中,和σA分别为属性A的均值和标准差。当属性A的实际最大和最小值未知,或离群点左右了最大-最小规范化时,该方法是有用的。 假定属性平均家庭月总收入的均值和标准差分别为9000元和2400元,值12600元使用z-score规范化转换为: 3)小数定标规范化。通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值v规范化为v’,由下式计算: 其中,j是使得Max(|v’|)1的最小整数。 例如,假定A的取值是-975~923。A的最大绝对值为975。使用小数定标规范化,用1 000(即j=3)除每个值,这样,-975规范化为-0.975,而923被规范化为0.923。 规范化将原来的数据改变,特别是上面的后两种方法。有必要保留规范化参数(如均值和标准差,如果使用z-score规范化),以便将来的数据可以用一致的方式规范化。 (5)属性构造 属性构造(或特征构造):属性构造是由给定的属性构造和添加新的属性,帮助提高准确率和对高维数据结构的理解。可以构造新的属性并添加到属性集中,以帮助挖掘过程。 有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚至还可能导致挖掘结果的偏差。数据简化是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度地精简数据量。 下面介绍几种常见的数据归约技术。 6.5 数据归约 6.5.1 数据立方体聚集 数据立方体存储多维聚集信息。每个单元存放一个聚集值,对应于多维空间的一个数据点,每个属性可能存在概念分层,允许在多个抽象层进行数据分析。数据立方体提供对预计算的汇总数据进行快速访问,因此,适合联机数据分析处理和数据挖掘。例如收集的数据是某公司过去几年间每个季度的销售数据,而感兴趣的数据是年销售数据,可以通过对数据聚集汇总得到年总销售额。数据立方体聚集为在线分析处理的上钻、下钻等操作提供了可以快速访问的汇总数据。 数据立方体聚集的基础是概念分层,用于处理数据立方体中的数据。在概念分层的最低抽象层创建的立方体称为基本方体(base cuboid)。基本方体应当对应于感兴趣的个体实体。即最低层应当是对应于分析可用的或有用的数据。最高层抽象的立方体称为顶点方体(apex cuboid)。对不同抽象层创建的数据立方体称为方体(cuboid),因此数据立方体可以看作方体的格(lattice of cuboids)。每个较高层抽象将进一步减少结果数据的规模。当回答数据挖掘查询时,应当使用与给定任务相关的最小可用方体。 6.5.2 属性子集选择 用于分析的数据集可能包含数以百计的属性,其中大部分属性与挖掘任务不相关或冗余。 属性子集选择的基本启发式方法包括以下几种: (1)逐步向前选择。该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代步,将剩下的原属性集中最好的属性添加到该集合中。 (2)逐步向后删除。该过程由整个属性集开始。在每一步,删除尚在属性集中最差的属性。 (3)向前选择和向后删除的结合。可以将逐步向前选择和向后删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。 (4)决策树归纳。决策树算法最初是用于分类的。决策树归纳构造一个类似于流程图的结构,其中每个内部(非树叶)节点表示一个属性的测试,每个分枝对应于测试的一个输出;每个外部(树叶)节点表示一个类预测。在每个节点,算法选择“最好”的属性,将数据划分成类。 当决策树归纳用于属性子集选择时,由给定的数据构造决策树。不出现在树中的所有属性假定是不相关的。出现在树中的属性形成归约后的属性子集。方法的结束标准可以不同。该过程可以使用一个度量阈值来决定何时停止属性选择过程。 6.5.3 维度归约 维度归约使用数据编码或变换,以便得到原数据的归约或

文档评论(0)

fpiaovxingl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档