数据挖掘概念技术数据预处理..pptVIP

  • 3
  • 0
  • 约1.64千字
  • 约 27页
  • 2016-12-20 发布于重庆
  • 举报
数据预处理 3.1 为什么需要预处理 数据 不完整,含噪声,不一致 数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。 脏数据形成的原因 滥用缩写词 数据输入错误 数据中的内嵌控制信息 不同的惯用语(如:ASAP对“at first chance”) 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码 数据清理的重要性 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。 垃圾进、垃圾出 数据清理处理内容 格式标准化 异常数据清除 错误纠正 重复数据的清除 数据规约 数据集的压缩表示,但是能和原始数据集达到相同或基本相同的分析结果 主要策略: 数据聚集 维规约 数据压缩 数据规约 3.2 数据清理 空缺值 忽略元组 人工填写空缺值 使用固定值 使用属性平均值 使用最有可能值 噪声数据 如何平滑数据,去掉噪声 数据平滑技术 分箱 聚类 计算机和人工检查相结合 回归 分箱 箱的深度:表示不同的箱里有相同个数的数据。 箱的宽度:每个箱值的取值区间是个常数。 平滑方法: 按箱平均值平滑 按箱中值平滑 按箱边界值平滑 聚类 每个簇中的数据用其中心值代替 忽略孤立点 计算机和人工检查相结合 先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。 人工再审查这些孤立点 回归 通过构造函数来符合数据变化的趋势,这样可以用一个变量

文档评论(0)

1亿VIP精品文档

相关文档