Chapter2_DataPre数据挖掘概念.pptVIP

  • 4
  • 0
  • 约9.44千字
  • 约 92页
  • 2017-03-01 发布于湖北
  • 举报
规范化 最小-最大规范化 z-score规范化 数据量纲不同,e.g. 身高、体重 离散化和概念分层 离散化(连续数据) 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。 概念分层(标称数据) 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 离散化 分箱(binning) 分箱技术递归的用于结果划分 直方图分析(histogram) 直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。 聚类分析 将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。 基于信息熵的方法等 Take Home Message 1、认识数据: 属性类型 数据集类型 数据的统计描述 (掌握) 数据的相似性度量 (重点,上机实习) 2、数据预处理 缺失值处理(重点,上机实习) 特征筛选(重点,上机实习) 归一化(重点,上机实习) * * * * * * * 如何处理噪声数据 聚类:(监测并且去除孤立点) 噪声处理-聚类 回归 x y y = x + 1 X1 Y1 Y1’ 如何处理噪声数据 2、数据集成 数据集成 数据集成: 将多个数据源中的数据整合到一个一致的存储中 模式集成: - 整合不同数据源中的元数据 - 实体识别问题:匹配来自不同数据源的现实世界的实体

文档评论(0)

1亿VIP精品文档

相关文档