数据挖掘导论--聚类分析基本概念和算法.ppt

下载文档

32
0
约9.61千字
约 78页
2019-11-23 发布于湖北
举报
版权申诉
保障服务

数据挖掘导论--聚类分析基本概念和算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

簇相似性: Group Average Example: Group Average 8.1 概述 8.1.1 什么是聚类分析 8.1.3 不同的簇类型补充聚类算法的分类8.2 K-均值聚类算法 8.2.1 基本K均值算法基本K均值算法存在的问题8.3 凝聚层次聚类 8.3.1 基本的凝聚层次聚类算法 8.3.2 如何计算簇之间的邻近性 8.3.4 层次聚类的主要问题8.4 DBSCAN 基本K均值算法存在的问题不同的初始质心将收敛得到不同的目标函数，可能只能达到局部最优解。随机选取初始质心，拙劣的初始质心，可能导致很糟糕的聚类结果。可能产生空簇容易受到离群点的影响不能处理非球形簇、不同尺寸和不同密度的簇。不同的初始质心导致不同的SSE Sub-optimal Clustering Optimal Clustering Original Points 基本K均值算法存在的问题拙劣的初始质心基本K均值算法存在的问题解决初始质心的选择问题：多次运行，选取最小的SSE 采用小部分数据，并进行层次聚类得到初始质心选择多于K个的初始质心，并在其中选出K个分布广泛的作为初始质心。随机地选择第一个点，或取所有点的质心作为第一个点。然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点。使用这种方法，确保了选择的初始质心不仅是随机的，而且是散开的。但是，这种方法可能选中离群点。此外，求离当前初始质心集最远的点开销也非常大。为了克服这个问题，通常该方法用于点样本。基本K均值算法存在的问题不同的初始质心将收敛得到不同的目标函数，可能只能达到局部最优解。随机选取初始质心，拙劣的初始质心，可能导致很糟糕的聚类结果。可能产生空簇容易受到离群点的影响不能处理非球形簇、不同尺寸和不同密度的簇。如果所有的点在指派步骤都未分配到某个簇，就会得到空簇。如果这种情况发生，则需要某种策略来选择一个替补质心，否则的话，平方误差将会偏大。一种方法是选择一个距离当前任何质心最远的点。这将消除当前对总平方误差影响最大的点。另一种方法是从具有最大SSE的簇中选择一个替补的质心。这将分裂簇并降低聚类的总SSE。如果有多个空簇，则该过程重复多次。基本K均值算法存在的问题不同的初始质心将收敛得到不同的目标函数，可能只能达到局部最优解。随机选取初始质心，拙劣的初始质心，可能导致很糟糕的聚类结果。可能产生空簇容易受到离群点的影响不能处理非球形簇、不同尺寸和不同密度的簇。使用平方误差时，离群点会过度影响所发现的簇在可能的条件下，提前删除离群点也可以在后处理时识别离群点基本K均值算法存在的问题不同的初始质心将收敛得到不同的目标函数，可能只能达到局部最优解。随机选取初始质心，拙劣的初始质心，可能导致很糟糕的聚类结果。可能产生空簇容易受到离群点的影响不能处理非球形簇、不同尺寸和不同密度的簇不能处理非球形簇、不同尺寸和不同密度的簇 Original Points K-means (3 Clusters) Original Points K-means (3 Clusters) 不能处理非球形簇、不同尺寸和不同密度的簇 Original Points K-means (2 Clusters) 不能处理非球形簇、不同尺寸和不同密度的簇 Original Points K-means Clusters 一个可能的解决方法：生产多个初始的簇，再将其中部分簇进行合并。不能处理非球形簇、不同尺寸和不同密度的簇 Overcoming K-means Limitations Original Points K-means Clusters Overcoming K-means Limitations Original Points K-means Clusters k-中心点聚类方法 k-均值算法对离群点很敏感! 因为具有特别大的值的对象可能显著地影响数据的均值. k-中心点(k-Medoids) 不采用簇中对象的平均值作为参照点, 而是选用簇中最靠近中心的对象, 即中心点(medoid)作为参照点. 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 8.3 凝聚层次聚类层次聚类将数据对象以树状的层次关系来看待。依层次建构的方式，一般分成两种来进行：凝聚的 (Agglomerative) 分裂的 (Divisive) 层次聚类层次聚类凝聚的 (Agglomerative): Start