- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据预处理 为什么要预处理数据? 现实世界的数据是“肮脏的”——数据多了,什么问题都会出现 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“离群点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致的集成 数据质量的多维度量 一个广为认可的多维度量观点: 精确度 完整度 一致性 合乎时机 可信度 附加价值 可访问性 跟数据本身的含义相关的 内在的、上下文的、表象的 数据预处理的主要任务 数据清理 填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性 数据集成 集成多个数据库、数据立方体或文件 数据变换 规范化和聚集 数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 数据离散化 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要 数据清理 缺失值 数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入 引起缺失值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载 缺失值要经过推断而补上 如何处理缺失值 忽略元组:当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。 人工填写缺失值:工作量大,可行性低 使用一个全局变量填充缺失值:比如使用unknown或-∞ 使用属性的平均值填充缺失值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充缺失值:使用像Bayesian公式或判定树这样的基于推断的方法 噪声数据 噪声:一个测量变量中的随机误差或方差 引起噪声数据的原因 数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致 如何处理噪声数据 分箱(binning): 首先排序数据,并将它们分到等深的箱中 然后可以(1)用箱均值平滑;(2)用箱中位数平滑;(3)用箱边界平滑;等等 聚类(Clustering): 通过聚类检测离群点,将类似的值组织成群或“簇” 落在簇集合之外的值视为离群点 回归(Regression): 通过让数据适应回归函数来平滑数据 数据平滑的分箱方法 price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34 划分为(等深的 / 等频的)箱: 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34 用箱均值平滑: 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29 用箱边界平滑: 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34 聚类 通过聚类分析查找离群点,消除噪声 回归 数据集成和变换 数据集成 数据集成: 合并多个数据源中的数据,存放到一个一致的数据存储中(一般为数据仓库)。 模式集成: 整合不同数据源中的元数据 实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.customer_id=B.cust_number 检测并解决数据值的冲突 对现实世界中的同一实体,来自不同数据源的属性值可能是不同的 可能的原因:不同的数据表示,不同的度量等等 处理数据集成中的冗余数据 集成多个数据库时,经常会出现冗余数据 同一属性在不同的数据库中会有不同的字段名 一个属性可以由另一个或另一组属性“导出”,如“年薪” 有些冗余可以被相关分析检测到 仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高数据挖掘的速度和质量。 数据变换 平滑:去除数据中的噪声(所用技术:分箱,聚类,回归) 聚集:汇总,为多粒度数据分析构建数据立方体 数据泛化:用高层概念替换低层概念或原始数据 规范化:将属性数据按比例缩放,使之落入一个小的特定区间 最小-最大规范化 z-score规范化 小数定标规范化 属性构造(特征构造) 通过现有属性构造新的属性,并添加到属性集中,以帮助挖掘过程 数据变换——规范化 最小-最大规范化 z-score规范化 小数定标规范化 数据归约 数据归约策略 数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间 数据归约 数据归约技术可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果 数据归约策略 数据立方体聚集 属性子集选择 维度归约 数值归约 离散化和概念分层产生 用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。 数据立方体聚集 数据立方体存储多维聚集信息(书P48图2-14) 每个单元存放一个聚集值,对应于多维空间的一个
您可能关注的文档
- 数据库课件CH12Web数据库.ppt
- 数据库课件报表.ppt
- 数据库课件查询.ppt
- 数据库课件第1章DataBase.ppt
- 数据库课件第1章数据库技术概述.ppt
- 数据库课件第2章SQLServer2000概述.ppt
- 数据库课件第3章数据库的基本操作.ppt
- 数据库课件第4章数据库中表的基本操作.ppt
- 数据库课件第5章DataBase.ppt
- 数据库课件第5章数据的基本操作.ppt
- 数据挖掘与知识获取课件3、数据仓库和数据挖掘的OLAP技术.ppt
- 数据挖掘与知识获取课件4、数据立方体计算与数据泛化.ppt
- 数据挖掘与知识获取课件5、挖掘频繁模式、关联和相关.ppt
- 新人教版初中物理课件2.1.声音的产生与传播人教版八年级上1.声音的产生与传播.ppt
- 新人教版初中物理课件2.2.声音的特性人教版八年级上2.声音的特性.ppt
- 新人教版初中物理课件2.3.声的利用人教版八年级上3.声的利用.ppt
- 新人教版初中物理课件2.4.噪声的危害和控制人教版八年级上4.噪声的危害和控制.ppt
- 新人教版初中物理课件3.1.温度人教版八年级上1.温度.ppt
- 新人教版初中物理课件3.2.熔化和凝固人教版八年级上2.熔化和凝固.ppt
- 新人教版初中物理课件3.3.汽化和液化人教版八年级上3.汽化和液化.ppt
文档评论(0)