基本K均值算法.PPT

下载文档 降价啦

145
0
约1.87万字
约 147页
2018-06-14 发布于天津
举报
版权申诉
保障服务

基本K均值算法.PPT

1、本文档共147页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基本K均值算法

* * * * 优势对噪音和极端值影响小局限偏好球型簇分层聚类: Group Average 其它近似度 Ward：两个簇合并时导致的误差平方和的增量质心：簇质心之间的距离 Lance-Willianms公式 Cluster Similarity: Ward’s Method 两个簇的邻近度定义为两个簇合并时导致的平方误差增量当邻近度取它们之间的平方时，ward与组平均类似对噪音和极端值影响小偏好球型簇 Hierarchical Clustering: Comparison Group Average Ward’s Method 1 2 3 4 5 6 1 2 5 3 4 MIN MAX 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5 优点与缺点优点：某些应用领域需要层次结构。如：系统发生树，基因芯片有些研究表明，这种算法能够产生较高质量的聚类缺点：计算量、存储量大对噪声、高维数据敏感 DBSCAN算法 DBSCAN 是一种简单、有效的基于密度的聚类算法. 基于中心的DBSCAN 在基于中心的方法中，数据集中特定点的密度通过对该点Eps半径之内的点计数（包括点本身）来估计该方法实现简单，但是点的密度依赖于指定的半径。例如，如果半径足够大，则所有点的密度都等于数据集中的点数m。类似地，如果半径太小，则所有点的密度都是1。 DBSCAN: 核心点, 边界点, 噪声点 DBSCAN 算法将所有点标记为核心点、边界点或噪声点删除噪声点为距离在Eps之内的所有核心点之间赋予一条边。每组连通的核心点形成一个簇。将每个边界点指派到一个与之关联的核心点的簇中。 DBSCAN: 选择 EPS and MinPts 基本方法是观察点到它的k个最近邻的距离（称为k-距离）的特性。计算所有点的k-距离，以递增次序将它们排序，然后绘制排序后的值，则我们预期会看到k-距离的急剧变化，对应于合适的Eps值。如果我们选取该距离为Eps参数，而取k的值为MinPts参数。 Original Points Point types: core, border and noise Eps = 10, MinPts = 4 变密度的簇如果簇的密度变化很大，DBSCAN可能会有问题。考虑图8-24，它包含4个埋藏在噪声中的簇。簇和噪声区域的密度由它们的明暗度指出。较密的两个簇A和B周围的噪声的密度与簇C和D的密度相同。如果Eps域值足够低，使得DBSCAN可以发现簇C和D，则A、B和包围它们的点将变成单个簇。如果Eps域值足够高，使得DBSCAN可以发现A和B，并且将包围它们的点标记为噪声，则C、D和包围它们的点也将标记为噪声。 Original Points (MinPts=4, Eps=9.75). (MinPts=4, Eps=9.92) Varying densities High-dimensional data DBSCAN的优点与缺点因为DBSCAN使用簇的基于密度的定义，因此它是相对抗噪声的，并且能够处理任意形状和大小的簇。这样，DBSCAN可以发现使用K均值不能发现的许多簇。然而，正如前面所指出的，当簇的密度变化太大时，DBSCAN就会有麻烦。对于高维数据，它也有问题，因为对于这样的数据，密度定义更困难。最后，当近邻计算需要计算所有的点对近邻度时，DBSCAN可能是开销很大的。簇评估如何评估聚类结果的好坏？为什么要评估聚类? To avoid finding patterns in noise To compare clustering algorithms To compare two sets of clusters To compare two clusters 随机数据的聚类结果 Random Points K-means DBSCAN Complete Link Measuring Cluster Validity Via Correlation Correlation of incidence and proximity matrices for the K-means clusterings of the following two data sets. Corr = -0.9235 Corr = -0.5810 Order the similarity matrix with respect to cluster labels and inspect visually. Using Similarity Matrix for Cluster Validation