数据挖掘密码学和P2P.PPT

* * * 两个不同的K-means聚类 次最优聚类 最优聚类 原始数据点 * 选取初始中心点的重要性 * 选取初始中心点的重要性 * 层次型聚类 产生嵌套的簇组织成的一棵层次树 可以可视化为树状图解 * 层次型聚类的优点 无需设定簇的个数 在合适的层次上分割树状图解可以产生任意个数的簇 可能对应于多个有意义的分类 如生物学中的例子 (如: 动物王国, 进化演变系统重构…) * 层次型聚类 两类主要层次型聚类 聚集型: 开始时每个点都为单独一个簇 每步合并最近的两个簇直到只剩一个簇 (或k个簇) 分裂型: 开始时, 所有点都在同一个簇中 每步分裂一个簇, 直到每个簇包含一个点 (或者有k个簇) 传统的层次型算法使用一个相似度或距离矩阵 每次合并或分裂一个簇 * 聚集型层次聚类 更常见的层次型聚类技术 基本算法 Compute the proximity matrix Let each data point be a cluster Repeat Merge the two closest clusters Update the proximity matrix Until only a single cluster remains 关键操作是计算两个簇之间的相似度 不同的算法定义了不同的簇之间的距离 * 开始状态 开始时每个点为一个簇, 并给定一个相近矩阵 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix * 中间状态 经过一些合并步骤后, 有了一些稍大的簇 C1 C4 C2 C5 C3 C2 C1 C1 C3 C5 C4 C2 C3 C4 C5 Proximity Matrix * 中间状态 合并最近的两个簇(C2和C5), 并更新相近矩阵 C1 C4 C2 C5 C3 C2 C1 C1 C3 C5 C4 C2 C3 C4 C5 Proximity Matrix * 合并后 问题: 如何更新相近矩阵? C1 C4 C2 U C5 C3 ? ? ? ? ? ? ? C2 U C5 C1 C1 C3 C4 C2 U C5 C3 C4 Proximity Matrix * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . 相似度? MIN MAX 组平均 中心点距离 由目标函数驱动的其他方法 Ward方法使用了平方误差 Proximity Matrix * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix MIN MAX 组平均 中心点距离 由目标函数驱动的其他方法 Ward方法使用了平方误差 * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix MIN MAX 组平均 中心点距离 由目标函数驱动的其他方法 Ward方法使用了平方误差 * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix MIN MAX 组平均 中心点距离 由目标函数驱动的其他方法 Ward方法使用了平方误差 * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix MIN MAX 组平均 中心点距离 由目标函数驱动的其他方法 Ward方法使用了平方误差 ? ? * 簇相似性: MIN 或 Single Link 两个簇之间的相似度基于不同簇中最相似的两个点 由一对点确定, 即相近图中个一条link. 1 2 3 4 5 * 层次型聚类: MIN Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 3 4 5 * 簇相似性: MAX 或 Complete Linkage 两个簇之间的相似度基于不同簇中最不相似的两个点 由两个簇中所有点确定 1 2 3 4 5 * 层次型聚类: MAX Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 5 3 4 * DIANA (DIvisive ANAlysis) 初始时,所有对象在一个簇中 一步步分裂形成小的簇 * MST: 分裂型层次聚类 构造MST (最小生成树) 由任意某个点组成的树开始 以下的每一步, 找到p在树中而q

文档评论(0)

1亿VIP精品文档

相关文档