数据挖掘2015最新精品课程完整讲稿(第13讲)---聚类分析.ppt

下载文档

3
0
约7.03千字
约 87页
2017-12-28 发布于江苏
举报
保障服务

数据挖掘2015最新精品课程完整讲稿(第13讲)---聚类分析.ppt

数据挖掘2015最新精品课程完整讲稿(第13讲)---聚类分析

Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 3 4 5 最小距离的优势 Original Points Two Clusters 能处理非椭圆形的簇最小距离的局限 Original Points Two Clusters 对噪声和孤立点敏感 K-平均聚类的细节初始中心点是随机选择的每次迭代之后簇往往会发生变化. 中心点一般是该簇的均值. “相似性”一般是通过Euclidean距离, cosine 相似性等来度量的. 在以上这些相似性度量标准下，K-平均聚类一般都会收敛. 复杂性O( n * K * I * d ) n = number of points, K = number of clusters, I = number of iterations, d = number of attributes 两个不同的K-平均聚类 Sub-optimal Clustering Optimal Clustering Original Points K-平均聚类演示 K-平均聚类演示 K-平均聚类的评价误差的平方和(Sum of Squared Error, SSE)是最基本的方法。对每个点，其差指该点与其所在簇间的距离计算所有的差，并对这些结果平方求和. X是簇Ci 内的点，mi 是代表簇Ci 的点 mi 可取簇的均值给定两

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘2015最新精品课程完整讲稿(第13讲)---聚类分析.ppt