数据仓库与数据挖掘技术第6章数据预处理技术.ppt

下载文档 降价啦

7
0
约1万字
约 62页
2016-12-31 发布于贵州
举报
版权申诉
保障服务

数据仓库与数据挖掘技术第6章数据预处理技术.ppt

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第6章数据预处理技术主讲人：孙水华副教授信息科学与工程学院目录数据预处理概述数据清理数据集成数据变换数据归约小结 6.6 小结 1）最小-最大规范化。假定mA和MA分别为属性A的最小值和最大值。最小-最大规范化通过计算将A的值v映射到区间[new_mA,new_MA]中的v’。最小-最大规范化对原始数据进行线性变换，保持原始数据值之间的联系。如果今后的输入落在A的原始数据值域之外，该方法将面临“越界”错误。 2）z-score规范化(零均值规范化)。把属性A的值v基于A的均值和标准差规范化为v’，通过下列公式计算：其中，和σA分别为属性A的均值和标准差。当属性A的实际最大和最小值未知，或离群点左右了最大-最小规范化时，该方法是有用的。假定属性平均家庭月总收入的均值和标准差分别为9000元和2400元，值12600元使用z-score规范化转换为： 3）小数定标规范化。通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值v规范化为v’，由下式计算：其中，j是使得Max(|v’|)1的最小整数。例如，假定A的取值是-975～923。A的最大绝对值为975。使用小数定标规范化，用1 000(即j=3)除每个值，这样，-975规范化为-0.975，而923被规范化为0.923。规范化将原来的数据改变，特别是上面的后两种方法。有必要保留规范化参数(如均值和标准差，如果使用z-score规范化)，以便将来的数据可以用一致的方式规范化。（5）属性构造属性构造(或特征构造)：属性构造是由给定的属性构造和添加新的属性，帮助提高准确率和对高维数据结构的理解。可以构造新的属性并添加到属性集中，以帮助挖掘过程。有些数据属性对发现任务是没有影响的，这些属性的加入会大大影响挖掘效率，甚至还可能导致挖掘结果的偏差。数据简化是在对发现任务和数据本身内容理解的基础上，寻找依赖于发现目标的表达数据的有用特征，以缩减数据模型，从而在尽可能保持数据原貌的前提下最大限度地精简数据量。下面介绍几种常见的数据归约技术。 6.5 数据归约 6.5.1 数据立方体聚集数据立方体存储多维聚集信息。每个单元存放一个聚集值，对应于多维空间的一个数据点，每个属性可能存在概念分层，允许在多个抽象层进行数据分析。数据立方体提供对预计算的汇总数据进行快速访问，因此，适合联机数据分析处理和数据挖掘。例如收集的数据是某公司过去几年间每个季度的销售数据，而感兴趣的数据是年销售数据，可以通过对数据聚集汇总得到年总销售额。数据立方体聚集为在线分析处理的上钻、下钻等操作提供了可以快速访问的汇总数据。数据立方体聚集的基础是概念分层，用于处理数据立方体中的数据。在概念分层的最低抽象层创建的立方体称为基本方体(base cuboid)。基本方体应当对应于感兴趣的个体实体。即最低层应当是对应于分析可用的或有用的数据。最高层抽象的立方体称为顶点方体(apex cuboid)。对不同抽象层创建的数据立方体称为方体(cuboid)，因此数据立方体可以看作方体的格(lattice of cuboids)。每个较高层抽象将进一步减少结果数据的规模。当回答数据挖掘查询时，应当使用与给定任务相关的最小可用方体。 6.5.2 属性子集选择用于分析的数据集可能包含数以百计的属性，其中大部分属性与挖掘任务不相关或冗余。属性子集选择的基本启发式方法包括以下几种：（1）逐步向前选择。该过程由空属性集作为归约集开始，确定原属性集中最好的属性，并将它添加到归约集中。在其后的每一次迭代步，将剩下的原属性集中最好的属性添加到该集合中。（2）逐步向后删除。该过程由整个属性集开始。在每一步，删除尚在属性集中最差的属性。（3）向前选择和向后删除的结合。可以将逐步向前选择和向后删除方法结合在一起，每一步选择一个最好的属性，并在剩余属性中删除一个最差的属性。（4）决策树归纳。决策树算法最初是用于分类的。决策树归纳构造一个类似于流程图的结构，其中每个内部(非树叶)节点表示一个属性的测试，每个分枝对应于测试的一个输出；每个外部(树叶)节点表示一个类预测。在每个节点，算法选择“最好”的属性，将数据划分成类。当决策树归纳用于属性子集选择时，由给定的数据构造决策树。不出现在树中的所有属性假定是不相关的。出现在树中的属性形成归约后的属性子集。方法的结束标准可以不同。该过程可以使用一个度量阈值来决定何时停止属性选择过程。 6.5.3 维度归约维度归约使用数据编码或变换，以便得到原数据的归约或

您可能关注的文档

文档评论（0）

fpiaovxingl + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据仓库与数据挖掘技术第6章数据预处理技术.ppt