- 10
- 0
- 约4.37万字
- 约 22页
- 2016-09-21 发布于贵州
- 举报
数据挖掘CHAPTR3数据预处理
数据预处理
当今现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,因为数据库太大,常常多达数千兆,甚至更多。“如何预处理数据,提高数据质量,从而提高挖掘结果的质量?”你可能会问。“怎样预处理数据,使得挖掘过程更加有效、更加容易?”
有大量数据预处理技术。数据清理可以去掉数据中的噪音,纠正不一致。数据集成将数据由多个源合并成一致的数据存储,如数据仓库或数据方。数据变换(如规范化)也可以使用。例如,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。
本章,你将学习数据预处理的方法。这些方法包括:数据清理、数据集成和转换、数据归约。本章还讨论数据离散化和概念分层,它们是数据归约的一种替换形式。概念分层可以进一步用于多抽象层挖掘。你将学习如何由给定的数据自动地产生概念分层。
为什么要预处理数据?
想象你是AllElectronics的经理,负责分析涉及你部门的公司数据。你立即着手进行这项工作。你仔细地研究和审查公司的数据库或数据仓库,找出应当包含在你的分析中的属性或维,如item, price和units_sold。啊!你注意到,许多元组在一些属性上没有值。对于你的分析,你希望知道每种销售商品是否通过广告降价
原创力文档

文档评论(0)