第3章　数据预处理数据挖掘：概念与技术知识 .pptVIP

下载本文档

11
0
约2.31千字
约 59页
2018-05-29 发布于天津
举报
版权申诉

第3章　数据预处理数据挖掘：概念与技术知识 .ppt

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第3章　数据预处理数据挖掘：概念与技术知识 .ppt

第3章　数据预处理;为什么要预处理数据数据清理数据集成和变换数据归约 ;3.1 为什么要预处理数据？;1. 数据质量的多维度量;2. 数据预处理的主要任务;3.2.1 空缺值;如何处理空缺值;3.2.2 噪声数据;如何处理噪声数据 ;（1）数据平滑的分箱方法;（2）聚类;（3）回归;3.3 数据集成和变换;3.3.1 数据集成;处理数据集成中的冗余数据;3.3.2 数据变换 ;1. 最小-最大规格化对给定的数值属性A， [minA，maxA]为A规格化前的取值区间，[new_ minA，new_ maxA] 为A规格化后的取值区间，最小-最大规格化根据下式将A的值v规格化为值v’;假设某属性规格化前的取值区间为[－100，100]，规格化后的取值区间为[0，1]，采用最小-最大规格化66，得：;2. 零-均值规格化对给定的数值属性A，、分别为A的平均值、标准差，零-均值规格化根据下式将A的值v规格化为值v’; 3. 小数定标规范化 ;3.4 数据归约;3.4.1 数据立方体聚集;最底层的方体对应于基本方体基本方体对应于感兴趣的实体在数据立方体中存在着不同级别的汇总数据立方体可以看成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据的快速访问使用与给定任务相关的最小方体在可能的情况下，对于汇总数据的查询应当使用数据立方体;3.4.2 维归约（属性归约）;启发式的（探索性的）方法;;粗糙集理论在属性归约中有重要的应用。在后面介绍其方法。;判定树方法;3.4.3 记录归约;例如，假设气温如表5.2所示，“地名”、“气温”属性的概念层次树分别如下所示。;　　设属性阈值均为4，采用面向属性归纳进行记录归纳，气温如表5.3所示，记录由6个归约为3个，count的值表示重复记录数目;3.4.4 数值归约;（1）直方图;（2）聚类;（3）选样;选样——SRS;选样——聚类/分层选样;3.5 离散化和概念分层生成;这种方法基于这样一个事实：概念层次树中高层的概念个数一般少于低层的概念个数。连续属性概念分层的自动生成：基于熵的离散化技术。 ;例如， “地址”属性的值由国家、省、市组成，如表5.4所示。;　　首先统计国家、省、市的不同值个数，不同值个数最少的在最高层，依次类推，可以得到“地址”属性的概念层次树结构，也称为模式定义的概念分层。如下图所示，国家在最高层、省在中间层、市在最低层。然后根据结构的从属关系，确定各层的概念及从属关系，最终得到“地址”属性的概念层次树。;如下图所示，因为市从属于省，而昆明市、大理市、玉溪市、曲靖市的省都是云南省，所以它们从属于云南省，同理，成都市从属于四川省，贵阳市从属于贵州省。;基于熵的离散化技术 1）给定关系表r及其连续属性A，计算在A的取值区间V上的记录集合S的熵。 S的熵定义为：式中，|c|为在S中属于目标类c的记录数，当目标属性是A时，为A取属性值v（=c）的记录数，|S|为S中的记录数。 ;2）对A在V上取的每个v，用v划分V为v1（v）、v2（≥v），划分S为S1、S2两类，计算在此划分下S的熵。在此划分下S的熵定义为：式中，|S1|、|S2|、|S|分别为S1、S2、S中的记录数，E(S1)、E(S2)分别为S1、S2的熵。;3）对在V上的每个划分v1（v）、v2（≥v），计算在此划分下S的信息增益。在此划分下S的信息增益定义为：式中，E(S)为S的熵，E(S,v)为在此划分下S的熵。 4）选择使S的信息增益最大的划分作为最佳划分，记为V1（T）、V2（≥T）（假设T是使S的信息增益最大的v）。 5）递归地应用步骤1）～4）于V1、V2及S1、S2上，直至满足一定的结束条件，例如，最大信息增益小于某个阈值。;例如，假设“气温”属性就是目标属性，它的取值区间为[－100,100]，在此区间上的属性值及记录数如下表所示，采用基于熵的离散化技术生成“气温”属性的概念层次树。;首先，划分区间[－100,100]; G([－100, 100], －3)=2.0378－2.0378=0 G([－100, 100], 6)= 2.0378－1.7465=0.2913 G([－100, 100], 18)= 2.0378－1.464=0.5738 G([－100, 100], 22)= 2.0378－1.0741=0.9637 G([－100, 100], 26)= 2.0378－1.3323=0.7055 最佳划分为： V1=[－100, 22) (T=22) V２=[22, 100](≥T=2

您可能关注的文档

文档评论（0）

yuzongxu123 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第3章　数据预处理数据挖掘：概念与技术知识 .pptVIP