基本K均值算法.PPT

  1. 1、本文档共147页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基本K均值算法

* * * * 优势 对噪音和极端值影响小 局限 偏好球型簇 分层聚类: Group Average 其它近似度 Ward:两个簇合并时导致的误差平方和的增量 质心:簇质心之间的距离 Lance-Willianms公式 Cluster Similarity: Ward’s Method 两个簇的邻近度定义为两个簇合并时导致的平方误差增量 当邻近度取它们之间的平方时,ward与组平均类似 对噪音和极端值影响小 偏好球型簇 Hierarchical Clustering: Comparison Group Average Ward’s Method 1 2 3 4 5 6 1 2 5 3 4 MIN MAX 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5 优点与缺点 优点: 某些应用领域需要层次结构。如:系统发生树,基因芯片 有些研究表明,这种算法能够产生较高质量的聚类 缺点: 计算量、存储量大 对噪声、高维数据敏感 DBSCAN算法 DBSCAN 是一种简单、有效的基于密度的聚类算法. 基于中心的DBSCAN 在基于中心的方法中,数据集中特定点的密度通过对该点Eps半径之内的点计数(包括点本身)来估计 该方法实现简单,但是点的密度依赖于指定的半径。例如,如果半径足够大,则所有点的密度都等于数据集中的点数m。类似地,如果半径太小,则所有点的密度都是1。 DBSCAN: 核心点, 边界点, 噪声点 DBSCAN 算法 将所有点标记为核心点、边界点或噪声点 删除噪声点 为距离在Eps之内的所有核心点之间赋予一条边。 每组连通的核心点形成一个簇。 将每个边界点指派到一个与之关联的核心点的簇中。 DBSCAN: 选择 EPS and MinPts 基本方法是观察点到它的k个最近邻的距离(称为k-距离)的特性。 计算所有点的k-距离,以递增次序将它们排序,然后绘制排序后的值,则我们预期会看到k-距离的急剧变化,对应于合适的Eps值。 如果我们选取该距离为Eps参数,而取k的值为MinPts参数。 Original Points Point types: core, border and noise Eps = 10, MinPts = 4 变密度的簇 如果簇的密度变化很大,DBSCAN可能会有问题。考虑图8-24,它包含4个埋藏在噪声中的簇。 簇和噪声区域的密度由它们的明暗度指出。较密的两个簇A和B周围的噪声的密度与簇C和D的密度相同。 如果Eps域值足够低,使得DBSCAN可以发现簇C和D,则A、B和包围它们的点将变成单个簇。 如果Eps域值足够高,使得DBSCAN可以发现A和B,并且将包围它们的点标记为噪声,则C、D和包围它们的点也将标记为噪声。 Original Points (MinPts=4, Eps=9.75). (MinPts=4, Eps=9.92) Varying densities High-dimensional data DBSCAN的优点与缺点 因为DBSCAN使用簇的基于密度的定义,因此它是相对抗噪声的,并且能够处理任意形状和大小的簇。这样,DBSCAN可以发现使用K均值不能发现的许多簇。 然而,正如前面所指出的,当簇的密度变化太大时,DBSCAN就会有麻烦。对于高维数据,它也有问题,因为对于这样的数据,密度定义更困难。最后,当近邻计算需要计算所有的点对近邻度时,DBSCAN可能是开销很大的。 簇评估 如何评估聚类结果的好坏? 为什么要评估聚类? To avoid finding patterns in noise To compare clustering algorithms To compare two sets of clusters To compare two clusters 随机数据的聚类结果 Random Points K-means DBSCAN Complete Link Measuring Cluster Validity Via Correlation Correlation of incidence and proximity matrices for the K-means clusterings of the following two data sets. Corr = -0.9235 Corr = -0.5810 Order the similarity matrix with respect to cluster labels and inspect visually. Using Similarity Matrix for Cluster Validation

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档