数据仓库与数据挖掘技术 第四章 数据预处理.docVIP

  • 167
  • 0
  • 约1.85千字
  • 约 10页
  • 2017-08-29 发布于江苏
  • 举报

数据仓库与数据挖掘技术 第四章 数据预处理.doc

第4章 数据预处理 4.1数据预处理概述 4.1.1原始数据中存在的问题 1. 不一致 2. 重复 3. 不完整 4. 含噪声 5. 维度高 6. 数据不平衡 4.1.2数据预处理的方法和功能 1. 数据清洗(data cleaning) 2. 数据集成(data integration) 3. 数据变换(data transformation) 4. 数据归约(data reduction) 4.2数据清洗 4.2.1属性选择与处理 1. 尽可能赋予属性名和属性值明确的含义 2. 统一多数据源的属性值编码 3. 处理唯一属性 4. 去除重复属性 5. 去除可忽略字段 6. 合理选择关联字段 4.2.2空缺值处理 1. 忽略该记录 2. 去掉属性 3. 写空缺值 4. 使用默认值 5. 使用属性平均值 6. 使用同类样本平均值 7. 预测最可能的值 4.2.3噪声数据处理 1. 分箱(binning) 2. 聚类(clustering) 图4-1用聚类方法去掉噪声 3. 回归(regression) 4.2.4不平衡数据的处理 4.3数据集成和变换 4.3.1数据集成 1. 模式匹配 2. 数据冗余 3. 数据值冲突 4.3.2数据变换 1. 平滑(smoothing) 2. 聚集(clustering) 3. 数据概化(generalization) 4. 规范化(normal

文档评论(0)

1亿VIP精品文档

相关文档