数据挖掘密码学和P2P.PPT

下载文档 降价啦

0
0
约9.66千字
约 94页
2019-03-22 发布于天津
举报
保障服务

数据挖掘密码学和P2P.PPT

* * * 两个不同的K-means聚类次最优聚类最优聚类原始数据点 * 选取初始中心点的重要性 * 选取初始中心点的重要性 * 层次型聚类产生嵌套的簇组织成的一棵层次树可以可视化为树状图解 * 层次型聚类的优点无需设定簇的个数在合适的层次上分割树状图解可以产生任意个数的簇可能对应于多个有意义的分类如生物学中的例子 (如: 动物王国, 进化演变系统重构…) * 层次型聚类两类主要层次型聚类聚集型: 开始时每个点都为单独一个簇每步合并最近的两个簇直到只剩一个簇 (或k个簇) 分裂型: 开始时, 所有点都在同一个簇中每步分裂一个簇, 直到每个簇包含一个点 (或者有k个簇) 传统的层次型算法使用一个相似度或距离矩阵每次合并或分裂一个簇 * 聚集型层次聚类更常见的层次型聚类技术基本算法 Compute the proximity matrix Let each data point be a cluster Repeat Merge the two closest clusters Update the proximity matrix Until only a single cluster remains 关键操作是计算两个簇之间的相似度不同的算法定义了不同的簇之间的距离 * 开始状态开始时每个点为一个簇, 并给定一个相近矩阵 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix * 中间状态经过一些合并步骤后, 有了一些稍大的簇 C1 C4 C2 C5 C3 C2 C1 C1 C3 C5 C4 C2 C3 C4 C5 Proximity Matrix * 中间状态合并最近的两个簇(C2和C5), 并更新相近矩阵 C1 C4 C2 C5 C3 C2 C1 C1 C3 C5 C4 C2 C3 C4 C5 Proximity Matrix * 合并后问题: 如何更新相近矩阵? C1 C4 C2 U C5 C3 ? ? ? ? ? ? ? C2 U C5 C1 C1 C3 C4 C2 U C5 C3 C4 Proximity Matrix * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . 相似度? MIN MAX 组平均中心点距离由目标函数驱动的其他方法 Ward方法使用了平方误差 Proximity Matrix * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix MIN MAX 组平均中心点距离由目标函数驱动的其他方法 Ward方法使用了平方误差 * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix MIN MAX 组平均中心点距离由目标函数驱动的其他方法 Ward方法使用了平方误差 * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix MIN MAX 组平均中心点距离由目标函数驱动的其他方法 Ward方法使用了平方误差 * 如何定义簇之间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . Proximity Matrix MIN MAX 组平均中心点距离由目标函数驱动的其他方法 Ward方法使用了平方误差 ? ? * 簇相似性: MIN 或 Single Link 两个簇之间的相似度基于不同簇中最相似的两个点由一对点确定, 即相近图中个一条link. 1 2 3 4 5 * 层次型聚类: MIN Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 3 4 5 * 簇相似性: MAX 或 Complete Linkage 两个簇之间的相似度基于不同簇中最不相似的两个点由两个簇中所有点确定 1 2 3 4 5 * 层次型聚类: MAX Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 5 3 4 * DIANA (DIvisive ANAlysis) 初始时,所有对象在一个簇中一步步分裂形成小的簇 * MST: 分裂型层次聚类构造MST (最小生成树) 由任意某个点组成的树开始以下的每一步, 找到p在树中而q

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘密码学和P2P.PPT