网站大量收购独家精品文档,联系QQ:2885784924

数据清洗与数据预处理.pptxVIP

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据清洗和数据预处理扫地机;认识数据挖掘前数据进行适当处理;教学要求知识要点能力要求相关知;不完整的含噪声的不一致的现实世;不一致——数据内涵出现不一致情;去掉噪声和无关数据数据清洗将;尽可能赋予属性名和属性值明确的;01在分析一个商场销售数据时,;忽略该记录去掉属性手工填写空;数据清洗——噪声数据的处理噪声;分箱:把待处理的数据按照一定的;噪声数据的处理——分箱分箱的方;按记录行数分箱,每箱具有相同的;在整个属性值的区间上平均分布,;最小熵使在各区间分组内的记录具;熵——信息的度量(利用概率来度;熵——信息的度量信息量大小的单;例子如果需要消除其不确定性,则;噪声数据的处理——分箱用户自定;噪声数据的处理——平滑处理分箱;噪声数据的处理——聚类簇:一组;噪声数据的处理——聚类;回归:发现两个相关的变量之间的;噪声数据的处理——回归xyy;模式匹配数据冗余数据值冲突数据;整合不同数据源中的元数据。01;同一属性在不同的数据库中会有不;数据集成——数据值冲突对于一个;数据变换——平滑1去除噪声,将;数据变换——聚集对数据进行汇总;用更抽象(更高层次)的概念来取;将数据按比例进行缩放,使之落入;最小-最大规范化已知属性的取值;最小-最大规范化;零-均值规范化(z-score;零-均值规范化(z-score;小数定标规范化通过移动属性A值;小数定标规范化;利用已有属性集构造出新的属性,;0102对大规模数据库内容进行;A用于数据归约的时间不应当超过;数据立方体聚集:维归约数据压缩;0102数据立方体基本概念:数;数据归约——数据立方体聚集;数据归约——数据立方体聚集聚集图数据是某商;数据归约——数据立方体聚集下图;维归约——去掉无关的属性,减少;维归约——选择相关属性子集1.;数据归约——数据压缩数据压缩—;无损(loseless)压缩:;数值归约——用较小的数据表示数;利用分箱方法对数据分布情况进行;数值归约——用聚类数据表示实际;优点:获取样本的时间仅与样本规;数值归约——参数回归法通常采用;不放回简单随机抽样放回简单随机;名称型——e.g.无序集合中;数据归约——概念分层生成;数值数据的概念分层生成方法a.;e.自然划分分段数值数据的概念;数值数据的概念分层生成方法;无标题;分类(类别)数据的概念分层生成;类别属性可取有限个不同的值且这

文档评论(0)

yingjiali1998 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档