韩家炜数据挖掘概念与技术——剖析.pptx

第3章 数据预处理;目录;数据预处理;3.1 数据预处理:概览;数据的不精确性;数据的不完整性;不一致的数据;数据的时效性;数据的可信性和可解释性;3.1.2 数据预处理的主要任务;数据清洗;数据聚合;;数据删减;;数据转换;;多种预处理的形式;预处理的作用;3.2 数据清洗;2 手工填写缺失值。通常,这种方法耗时,并且对一个有很多缺失值的大型数据集来说并非可行。 3 使用一个全局常数来填写缺失值。可以将所有缺失的属性值用同一个常数,例如标签“Unknown”或者”-∞”来表示。如果缺失值被“Unknown”替换,挖掘算法可能错误的认为形成了一个有趣的概念,因为他们都有一个共同的值”Unknown”.因此,即使这种方法很简单,却也并非不会出错。 4 使用一个属性的中心性测量来填写缺失值。对于标准(对称的)数据分布,可以使用平均值,对偏斜数据分布可以使用中值。;;;3.2.2 噪声数据;排好序的数据被分布到一系列的“桶”,或箱子中。因为装箱方法参考值的邻居,所以使用的是局部平滑。 有若干种装箱技术: 1)等频装箱。例如,价格属性先被排序,然后被分割到箱子的大小为3的等频箱子中。 2)箱子均值平滑。箱子中的每个值被箱子的均值替代。 3)箱子中值平滑。每个箱子值被箱子中值取代。 4)箱子边界平滑。箱子值被最靠近的边界值(最大值或最小值)取代。 箱子的宽度也大,平滑效果也越显著。另外,等宽

文档评论(0)

1亿VIP精品文档

相关文档