第八章聚类解说.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
9.5 基于层次的聚类方法 大体上,主要的聚类算法可以划分为如下几类: (1)划分方法; (2)层次方法; (3)基于密度的方法; (4)基于网格的方法; (5)基于模型的方法。 * 基于密度的聚类方法 密度方法: 绝大多数聚类方法基于对象之间的距离进行聚类,这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。 基于密度的方法:只要一个区域中点的密度(对象或数据点的数目)超过某个阈值,就将其加到与之相近的聚类中去。 这种方法可以过滤噪声孤立点数据,发现任意形状的簇。 代表算法有:DBSCAN、OPTICS、DENCLUE算法等。 * 基于密度的方法:DBSCAN 基于密度的聚类算法。该算法将具有足够高密度的区域划分为簇,并可以在带有噪声的空间数据中发现任意形状的聚类。 在该方法中,簇被定义为密度相连的点的最大集合。 先介绍该方法中涉及到的一些基本的定义。 * 基于密度的方法:DBSCAN 定义 1: 对象的ε-临域:给定对象在半径ε内的区域。 定义2: 核心对象:如果一个对象的ε-临域至少包含最小数目MinPts个对象,则称该对象为核心对象。 例如,在下图中,设定ε=1cm,MinPts=5,则q是一个核心对象。 边界点:边界点不是核心点,但落在某个核心点的邻域内; * 基于密度的方法:DBSCAN 定义 3: 直接密度可达:给定一个对象集合D,如果p是在q的ε-邻域内,而q是一个核心对象,我们说对象p从对象q出发是直接密度可达的。 例如,在下图中,设定ε=1cm,MinPts=5, q是一个核心对象,对象p从对象q出发是直接密度可达的。 * 基于密度的方法:DBSCAN 定义 4: 密度可达的:如果存在一个对象链p1,p2,…,pn,p1=q,pn=p,对pi∈D,(1=i=n),pi+1是从pi关于ε和MitPts直接密度可达的,则对象p是从对象q关于ε和MinPts密度可达的。 * 基于密度的方法:DBSCAN 定义 5: 密度相连的:如果对象集合D中存在一个对象o,使得对象p和q是从o关于ε和MinPts密度可达的,那么对象p和q是关于ε和MinPts密度相连的。 例如,在下图中,ε=1cm,MinPts=5,o是一个核心对象,p1是从o关于ε和MitPts直接密度可达,p是从p1关于ε和MitPts直接密度可达,则对象p从对象o关于ε和MinPts密度可达的;同理,q也是从o关于ε和MinPts密度可达的,则,称对象p和q是关于ε和MinPts密度相连的。 * 基于密度的方法:DBSCAN 定义 6: 噪声:一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合。不包含在任何簇中的对象被认为是“噪声” 。 * DBSCAN算法描述 DBSCAN通过检查数据集中每个对象的ε-邻域来寻找聚类。 如果一个点p的ε-邻域包含多于MinPts个对象,则创建一个p作为核心对象的新簇。 然后,DBSCAN反复地寻找从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。 当没有新的点可以被添加到任何簇时,该过程结束。 * DBSCAN算法描述 * 示例 * 示例 距离 * 示例 距离 * 示例 * 示例 Problem: 当MinPts=4时,结果又当如何? * 基于划分的聚类方法。 基于层次的聚类方法? 基于密度的聚类方法? 复习与思考问题 * * * * * K-均值聚类算法 算法的基本思想: 首先,随机的选择k个对象,每个对象初始的代表了一个簇的平均值; 对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇; 然后重新计算每个簇的平均值。 这个过程不断重复,直到准则函数收敛。 * K-均值聚类算法 通常选择误差平方和最小作为收敛准则函数: 这个准则试图使得生成的结果尽可能地紧凑和独立:当结果簇是密集的,且簇与簇之间区别明显时,算法的效果较好。 * K-均值聚类算法 该算法有三个要点: 1)该算法不适合处理离散型属性 由于该算法不适合处理离散型属性,因此在计算数据样本间的距离时,可根据实际需要选择欧式距离、曼哈顿距离或者明氏距离中的一种作为算法的相似性度量;最常用的是欧式距离。 2)选择评价聚类性能的准则函数 算法使用误差平方和准则函数来评价聚类性能。准则公式为: 3)相似度的计算根据簇中对象的平均值来进行 * K-平均聚类算法 算法的特点: 只适用于聚类均值有意义的场合,在某些应用中,如:数据集中包含符号属性时,直接应用k-means算法就有问题; 用户必须事先指定k的个数; 对噪声和孤立点数据敏感,少量的该类数据能够对聚类均值起到很大的影响。 * 示例1 * 示例1 * 示例1 * 示例1 * 示例2 * 示例2 * 示例2 * 示

文档评论(0)

美洲行 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档