第八章聚类解说.ppt

下载文档 降价啦

6
0
约1.46万字
约 142页
2016-06-25 发布于湖北
举报
版权申诉
保障服务

第八章聚类解说.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

9.5 基于层次的聚类方法大体上，主要的聚类算法可以划分为如下几类：（1）划分方法；（2）层次方法；（3）基于密度的方法；（4）基于网格的方法；（5）基于模型的方法。 * 基于密度的聚类方法密度方法：绝大多数聚类方法基于对象之间的距离进行聚类，这样的方法只能发现球状的簇，而在发现任意形状的簇上遇到了困难。基于密度的方法：只要一个区域中点的密度（对象或数据点的数目）超过某个阈值，就将其加到与之相近的聚类中去。这种方法可以过滤噪声孤立点数据，发现任意形状的簇。代表算法有：DBSCAN、OPTICS、DENCLUE算法等。 * 基于密度的方法：DBSCAN 基于密度的聚类算法。该算法将具有足够高密度的区域划分为簇，并可以在带有噪声的空间数据中发现任意形状的聚类。在该方法中，簇被定义为密度相连的点的最大集合。先介绍该方法中涉及到的一些基本的定义。 * 基于密度的方法：DBSCAN 定义 1：对象的ε-临域：给定对象在半径ε内的区域。定义2：核心对象：如果一个对象的ε-临域至少包含最小数目MinPts个对象，则称该对象为核心对象。例如，在下图中，设定ε=1cm，MinPts=5，则q是一个核心对象。边界点：边界点不是核心点，但落在某个核心点的邻域内； * 基于密度的方法：DBSCAN 定义 3：直接密度可达：给定一个对象集合D，如果p是在q的ε-邻域内，而q是一个核心对象，我们说对象p从对象q出发是直接密度可达的。例如，在下图中，设定ε=1cm，MinPts=5， q是一个核心对象，对象p从对象q出发是直接密度可达的。 * 基于密度的方法：DBSCAN 定义 4：密度可达的：如果存在一个对象链p1，p2，…，pn，p1=q，pn=p，对pi∈D，（1=i=n），pi+1是从pi关于ε和MitPts直接密度可达的，则对象p是从对象q关于ε和MinPts密度可达的。 * 基于密度的方法：DBSCAN 定义 5：密度相连的：如果对象集合D中存在一个对象o，使得对象p和q是从o关于ε和MinPts密度可达的，那么对象p和q是关于ε和MinPts密度相连的。例如，在下图中，ε=1cm，MinPts=5，o是一个核心对象，p1是从o关于ε和MitPts直接密度可达，p是从p1关于ε和MitPts直接密度可达，则对象p从对象o关于ε和MinPts密度可达的；同理，q也是从o关于ε和MinPts密度可达的，则，称对象p和q是关于ε和MinPts密度相连的。 * 基于密度的方法：DBSCAN 定义 6：噪声：一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合。不包含在任何簇中的对象被认为是“噪声” 。 * DBSCAN算法描述 DBSCAN通过检查数据集中每个对象的ε-邻域来寻找聚类。如果一个点p的ε-邻域包含多于MinPts个对象，则创建一个p作为核心对象的新簇。然后，DBSCAN反复地寻找从这些核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并。当没有新的点可以被添加到任何簇时，该过程结束。 * DBSCAN算法描述 * 示例 * 示例距离 * 示例距离 * 示例 * 示例 Problem：当MinPts=4时，结果又当如何？ * 基于划分的聚类方法。基于层次的聚类方法？基于密度的聚类方法？复习与思考问题 * * * * * K-均值聚类算法算法的基本思想：首先，随机的选择k个对象，每个对象初始的代表了一个簇的平均值；对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇；然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。 * K-均值聚类算法通常选择误差平方和最小作为收敛准则函数：这个准则试图使得生成的结果尽可能地紧凑和独立：当结果簇是密集的，且簇与簇之间区别明显时，算法的效果较好。 * K-均值聚类算法该算法有三个要点： 1）该算法不适合处理离散型属性由于该算法不适合处理离散型属性，因此在计算数据样本间的距离时，可根据实际需要选择欧式距离、曼哈顿距离或者明氏距离中的一种作为算法的相似性度量；最常用的是欧式距离。 2）选择评价聚类性能的准则函数算法使用误差平方和准则函数来评价聚类性能。准则公式为： 3）相似度的计算根据簇中对象的平均值来进行 * K-平均聚类算法算法的特点：只适用于聚类均值有意义的场合，在某些应用中，如：数据集中包含符号属性时，直接应用k-means算法就有问题；用户必须事先指定k的个数；对噪声和孤立点数据敏感，少量的该类数据能够对聚类均值起到很大的影响。 * 示例1 * 示例1 * 示例1 * 示例1 * 示例2 * 示例2 * 示例2 * 示