数据挖掘2015最新精品课程完整讲稿(第13讲)---聚类分析.ppt

数据挖掘2015最新精品课程完整讲稿(第13讲)---聚类分析.ppt

数据挖掘2015最新精品课程完整讲稿(第13讲)---聚类分析

Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 3 4 5 最小距离的优势 Original Points Two Clusters 能处理非椭圆形的簇 最小距离的局限 Original Points Two Clusters 对噪声和孤立点敏感 K-平均聚类的细节 初始中心点是随机选择的 每次迭代之后簇往往会发生变化. 中心点一般是该簇的均值. “相似性”一般是通过Euclidean距离, cosine 相似性等来度量的. 在以上这些相似性度量标准下,K-平均聚类一般都会收敛. 复杂性O( n * K * I * d ) n = number of points, K = number of clusters, I = number of iterations, d = number of attributes 两个不同的K-平均聚类 Sub-optimal Clustering Optimal Clustering Original Points K-平均聚类演示 K-平均聚类演示 K-平均聚类的评价 误差的平方和(Sum of Squared Error, SSE)是最基本的方法。 对每个点,其差指该点与其所在簇间的距离 计算所有的差,并对这些结果平方求和. X是簇Ci 内的点,mi 是代表簇Ci 的点 mi 可取簇的均值 给定两

文档评论(0)

1亿VIP精品文档

相关文档