数据预处理方法与改进的建议.pptxVIP

  • 105
  • 0
  • 约6.06千字
  • 约 55页
  • 2017-04-12 发布于湖北
  • 举报
数据预处理方法的研究与一些改进的建议 数据预处理的必要性 数据预处理是整个数据挖掘与知识发现过程中的一个重要步骤。 不完整、含噪声的和不一致的数据是现实世界大型数据库或数据仓库的共同特点。 数据的预处理能有效的提高数据质量,节约大量的时间和空间。 一些比较成熟的算法对其处理的数据集合一般有一定的要求。 数据预处理的常规方法 1.数据清洗 去掉噪声和无关数据 2.数据集成 将多个数据源中的数据结合起来存放在一个一致的数据存储中 3.数据变换 把原始数据转换成为适合数据挖掘的形式 4.数据归约 主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等 数据清洗——处理空缺值 数据并不总是完整的 在分析一个商场销售数据时,发现有多个记录中的属性值为空,如:顾客的收入属性对于为空的属性值 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据应为得不到重视而没有被输入 数据清洗——处理空缺值 空缺值要经过推断而补上 1.忽略该记录 2.去掉属性 3.手工填写空缺值 4.使用默认值 5.使用属性平均值 6.使用同类样本平均值 7.预测最可能的值 噪声数据的处理——分箱 分箱:把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。 箱子:按照

文档评论(0)

1亿VIP精品文档

相关文档