数据挖掘导论--聚类分析基本概念和算法.ppt

数据挖掘导论--聚类分析基本概念和算法.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
簇相似性: Group Average Example: Group Average 8.1 概述 8.1.1 什么是聚类分析 8.1.3 不同的簇类型 补充 聚类算法的分类 8.2 K-均值聚类算法 8.2.1 基本K均值算法 基本K均值算法存在的问题 8.3 凝聚层次聚类 8.3.1 基本的凝聚层次聚类算法 8.3.2 如何计算簇之间的邻近性 8.3.4 层次聚类的主要问题 8.4 DBSCAN 基本K均值算法存在的问题 不同的初始质心将收敛得到不同的目标函数,可能只能达到局部最优解。 随机选取初始质心,拙劣的初始质心,可能导致很糟糕的聚类结果。 可能产生空簇 容易受到离群点的影响 不能处理非球形簇、不同尺寸和不同密度的簇。 不同的初始质心导致不同的SSE Sub-optimal Clustering Optimal Clustering Original Points 基本K均值算法存在的问题 拙劣的初始质心 基本K均值算法存在的问题 解决初始质心的选择问题: 多次运行,选取最小的SSE 采用小部分数据,并进行层次聚类得到初始质心 选择多于K个的初始质心,并在其中选出K个分布广泛的作为初始质心。 随机地选择第一个点,或取所有点的质心作为第一个点。然后,对于每个后继初始质心,选择离已经选取过的初始质心最远的点。 使用这种方法,确保了选择的初始质心不仅是随机的,而且是散开的。 但是,这种方法可能选中离群点。 此外,求离当前初始质心集最远的点开销也非常大。为了克服这个问题,通常该方法用于点样本。 基本K均值算法存在的问题 不同的初始质心将收敛得到不同的目标函数,可能只能达到局部最优解。 随机选取初始质心,拙劣的初始质心,可能导致很糟糕的聚类结果。 可能产生空簇 容易受到离群点的影响 不能处理非球形簇、不同尺寸和不同密度的簇。 如果所有的点在指派步骤都未分配到某个簇,就会得到空簇。 如果这种情况发生,则需要某种策略来选择一个替补质心,否则的话,平方误差将会偏大。 一种方法是选择一个距离当前任何质心最远的点。这将消除当前对总平方误差影响最大的点。 另一种方法是从具有最大SSE的簇中选择一个替补的质心。这将分裂簇并降低聚类的总SSE。 如果有多个空簇,则该过程重复多次。 基本K均值算法存在的问题 不同的初始质心将收敛得到不同的目标函数,可能只能达到局部最优解。 随机选取初始质心,拙劣的初始质心,可能导致很糟糕的聚类结果。 可能产生空簇 容易受到离群点的影响 不能处理非球形簇、不同尺寸和不同密度的簇。 使用平方误差时,离群点会过度影响所发现的簇 在可能的条件下,提前删除离群点 也可以在后处理时识别离群点 基本K均值算法存在的问题 不同的初始质心将收敛得到不同的目标函数,可能只能达到局部最优解。 随机选取初始质心,拙劣的初始质心,可能导致很糟糕的聚类结果。 可能产生空簇 容易受到离群点的影响 不能处理非球形簇、不同尺寸和不同密度的簇 不能处理非球形簇、不同尺寸和不同密度的簇 Original Points K-means (3 Clusters) Original Points K-means (3 Clusters) 不能处理非球形簇、不同尺寸和不同密度的簇 Original Points K-means (2 Clusters) 不能处理非球形簇、不同尺寸和不同密度的簇 Original Points K-means Clusters 一个可能的解决方法:生产多个初始的簇,再将其中部分簇进行合并。 不能处理非球形簇、不同尺寸和不同密度的簇 Overcoming K-means Limitations Original Points K-means Clusters Overcoming K-means Limitations Original Points K-means Clusters k-中心点聚类方法 k-均值算法对离群点很敏感! 因为具有特别大的值的对象可能显著地影响数据的均值. k-中心点(k-Medoids) 不采用簇中对象的平均值作为参照点, 而是选用簇中最靠近中心的对象, 即中心点(medoid)作为参照点. 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 8.3 凝聚层次聚类 层次聚类 将数据对象以树状的层次关系来看待。依层次建构的方式,一般分成两种来进行: 凝聚的 (Agglomerative) 分裂的 (Divisive) 层次聚类 层次聚类 凝聚的 (Agglomerative): Start

文档评论(0)

锦绣中华 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档