- 27
- 0
- 约2.32万字
- 约 62页
- 2017-07-30 发布于浙江
- 举报
* 使用聚类之后获得的对象簇类似于分类。分类是识别对象组或类的有效手段,但是其缺陷:需要高昂的代价去收集和标记大量训练元组集或模式。 明智的做法:先用聚类分组,再进行分类。 * * * * * 数据矩阵的行表示对象,每一列表示对象的一个属性值。 有时如果给定数据矩阵,要转换为相异度矩阵。因为相异度用来计算对象的聚类。 * * 为了计算相异度,我们需要先计算一些基础的变量值。 这两种方法都是将数据标准化。 均值绝对偏差的鲁棒性更强,因为其中没有计算各个变量与均值之差的平方,所以离群点造成的影响就减弱了。 * 二元变量需要单独处理。不能采用区间标度变量的处理方法。 一般是使用相异度表示两个对象之间的差异,但是也可以使用相似度来表示,如Jaccard系数。 * 结果表示:jim和mary不大可能患相似的疾病;而jack和mary最有可能患相似的疾病。 * Tanimoto系数表示x和y之间共有的属性的个数与两者所具有的属性个数之间的比率。 * * K均值中计算误差的平方,更加剧了离群点的影响。 * i表示被选中节点,h是未被选中的节点。要检测h是否是比i更好的节点? * * * * PAM (Partitioning Around Medoids) (1987) PAM (Kaufman and Rousseeuw, 1987), built in Splus Use real obje
原创力文档

文档评论(0)