韩家炜数据挖掘概念与技术——剖析.pptx

下载文档 降价啦

17
0
约5.5千字
约 119页
2016-12-01 发布于湖北
举报
保障服务

韩家炜数据挖掘概念与技术——剖析.pptx

第3章数据预处理;目录;数据预处理;3.1 数据预处理：概览;数据的不精确性;数据的不完整性;不一致的数据;数据的时效性;数据的可信性和可解释性;3.1.2 数据预处理的主要任务;数据清洗;数据聚合;;数据删减;;数据转换;;多种预处理的形式;预处理的作用;3.2 数据清洗;2 手工填写缺失值。通常，这种方法耗时，并且对一个有很多缺失值的大型数据集来说并非可行。 3 使用一个全局常数来填写缺失值。可以将所有缺失的属性值用同一个常数，例如标签“Unknown”或者”-∞”来表示。如果缺失值被“Unknown”替换，挖掘算法可能错误的认为形成了一个有趣的概念，因为他们都有一个共同的值”Unknown”.因此，即使这种方法很简单，却也并非不会出错。 4 使用一个属性的中心性测量来填写缺失值。对于标准（对称的）数据分布，可以使用平均值，对偏斜数据分布可以使用中值。;;;3.2.2 噪声数据;排好序的数据被分布到一系列的“桶”,或箱子中。因为装箱方法参考值的邻居，所以使用的是局部平滑。有若干种装箱技术： 1）等频装箱。例如，价格属性先被排序，然后被分割到箱子的大小为3的等频箱子中。 2）箱子均值平滑。箱子中的每个值被箱子的均值替代。 3）箱子中值平滑。每个箱子值被箱子中值取代。 4）箱子边界平滑。箱子值被最靠近的边界值（最大值或最小值）取代。箱子的宽度也大，平滑效果也越显著。另外，等宽

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

韩家炜数据挖掘概念与技术——剖析.pptx