第3章 数据预处理 数据挖掘:概念与技术 知识 .pptVIP

第3章 数据预处理 数据挖掘:概念与技术 知识 .ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章 数据预处理 数据挖掘:概念与技术 知识 .ppt

第3章 数据预处理;为什么要预处理数据 数据清理 数据集成和变换 数据归约 ;3.1 为什么要预处理数据?;1. 数据质量的多维度量;2. 数据预处理的主要任务;3.2.1 空缺值;如何处理空缺值;3.2.2 噪声数据;如何处理噪声数据 ;(1)数据平滑的分箱方法;(2)聚类;(3)回归;3.3 数据集成和变换;3.3.1 数据集成;处理数据集成中的冗余数据;3.3.2 数据变换 ;1. 最小-最大规格化 对给定的数值属性A, [minA,maxA]为A规格化前的取值区间,[new_ minA,new_ maxA] 为A规格化后的取值区间,最小-最大规格化根据下式将A的值v规格化为值v’;假设某属性规格化前的取值区间为[-100,100],规格化后的取值区间为[0,1],采用最小-最大规格化66,得:;2. 零-均值规格化 对给定的数值属性A, 、 分别为A的平均值、标准差,零-均值规格化根据下式将A的值v规格化为值v’; 3. 小数定标规范化 ;3.4 数据归约;3.4.1 数据立方体聚集;最底层的方体对应于基本方体 基本方体对应于感兴趣的实体 在数据立方体中存在着不同级别的汇总 数据立方体可以看成方体的格 每个较高层次的抽象将进一步减少结果数据 数据立方体提供了对预计算的汇总数据的快速访问 使用与给定任务相关的最小方体 在可能的情况下,对于汇总数据的查询应当使用数据立方体;3.4.2 维归约(属性归约);启发式的(探索性的)方法;;粗糙集理论在属性归约中有重要的应用。 在后面介绍其方法。;判定树方法;3.4.3 记录归约;例如,假设气温如表5.2所示,“地名”、“气温”属性的概念层次树分别如下所示。;  设属性阈值均为4,采用面向属性归纳进行记录归纳,气温如表5.3所示,记录由6个归约为3个,count的值表示重复记录数目;3.4.4 数值归约;(1)直方图;(2)聚类;(3)选样;选样——SRS;选样——聚类/分层选样;3.5 离散化和概念分层生成;这种方法基于这样一个事实:概念层次树中高层的概念个数一般少于低层的概念个数。 连续属性概念分层的自动生成:基于熵的离散化技术。 ;例如, “地址”属性的值由国家、省、市组成,如表5.4所示。;  首先统计国家、省、市的不同值个数,不同值个数最少的在最高层,依次类推,可以得到“地址”属性的概念层次树结构,也称为模式定义的概念分层。如下图所示,国家在最高层、省在中间层、市在最低层。然后根据结构的从属关系,确定各层的概念及从属关系,最终得到“地址”属性的概念层次树。;如下图所示,因为市从属于省,而昆明市、大理市、玉溪市、曲靖市的省都是云南省,所以它们从属于云南省,同理,成都市从属于四川省,贵阳市从属于贵州省。;基于熵的离散化技术 1)给定关系表r及其连续属性A,计算在A的取值区间V上的记录集合S的熵。 S的熵定义为: 式中,|c|为在S中属于目标类c的记录数,当目标属性是A时,为A取属性值v(=c)的记录数,|S|为S中的记录数。 ;2)对A在V上取的每个v,用v划分V为v1(v)、v2(≥v),划分S为S1、S2两类,计算在此划分下S的熵。 在此划分下S的熵定义为: 式中,|S1|、|S2|、|S|分别为S1、S2、S中的记录数,E(S1)、E(S2)分别为S1、S2的熵。;3)对在V上的每个划分v1(v)、v2(≥v),计算在此划分下S的信息增益。 在此划分下S的信息增益定义为: 式中,E(S)为S的熵,E(S,v)为在此划分下S的熵。 4)选择使S的信息增益最大的划分作为最佳划分,记为V1(T)、V2(≥T)(假设T是使S的信息增益最大的v)。 5)递归地应用步骤1)~4)于V1、V2及S1、S2上,直至满足一定的结束条件,例如,最大信息增益小于某个阈值。;例如, 假设“气温”属性就是目标属性,它的取值区间为[-100,100],在此区间上的属性值及记录数如下表所示,采用基于熵的离散化技术生成“气温”属性的概念层次树。;首先,划分区间[-100,100]; G([-100, 100], -3)=2.0378-2.0378=0 G([-100, 100], 6)= 2.0378-1.7465=0.2913 G([-100, 100], 18)= 2.0378-1.464=0.5738 G([-100, 100], 22)= 2.0378-1.0741=0.9637 G([-100, 100], 26)= 2.0378-1.3323=0.7055 最佳划分为: V1=[-100, 22) (T=22) V2=[22, 100](≥T=2

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档