张云春《数据挖掘》Chapter 7 Cluster analysis.pptVIP

下载本文档

27
0
约2.32万字
约 62页
2017-07-30 发布于浙江
举报

张云春《数据挖掘》Chapter 7 Cluster analysis.ppt

* 使用聚类之后获得的对象簇类似于分类。分类是识别对象组或类的有效手段，但是其缺陷：需要高昂的代价去收集和标记大量训练元组集或模式。明智的做法：先用聚类分组，再进行分类。 * * * * * 数据矩阵的行表示对象，每一列表示对象的一个属性值。有时如果给定数据矩阵，要转换为相异度矩阵。因为相异度用来计算对象的聚类。 * * 为了计算相异度，我们需要先计算一些基础的变量值。这两种方法都是将数据标准化。均值绝对偏差的鲁棒性更强，因为其中没有计算各个变量与均值之差的平方，所以离群点造成的影响就减弱了。 * 二元变量需要单独处理。不能采用区间标度变量的处理方法。一般是使用相异度表示两个对象之间的差异，但是也可以使用相似度来表示，如Jaccard系数。 * 结果表示：jim和mary不大可能患相似的疾病；而jack和mary最有可能患相似的疾病。 * Tanimoto系数表示x和y之间共有的属性的个数与两者所具有的属性个数之间的比率。 * * K均值中计算误差的平方，更加剧了离群点的影响。 * i表示被选中节点，h是未被选中的节点。要检测h是否是比i更好的节点？ * * * * PAM (Partitioning Around Medoids) (1987) PAM (Kaufman and Rousseeuw, 1987), built in Splus Use real obje

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

张云春《数据挖掘》Chapter 7 Cluster analysis.pptVIP