基于密度方法的聚类(免费阅读).pptVIP

下载本文档

9
0
约7.91千字
约 65页
2016-12-17 发布于重庆
举报

基于密度方法的聚类(免费阅读).ppt

聚类分析宋宜飞主要内容回顾密度聚类方法 DBSCAN算法 OPTICS 算法网格聚类方法 CLIQUE算法回顾聚类聚类(clustering)也称为聚类分析,指将样本分到不同的组中使得同一组中的样本差异尽可能的小，而不同组中的样本差异尽可能的大。聚类得到的不同的组称为簇(cluster)。一个好的聚类方法将产生以下的聚类最大化类中的相似性最小化类间的相似性回顾聚类的分类：划分聚类方法层次聚类方法密度聚类方法网格聚类方法模型聚类方法 k-means 算法 k-means 算法基本步骤从 n个数据对象任意选择 k 个对象作为初始聚类中心；根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；重新计算每个(有变化)聚类的均值(中心对象)；　　计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤2。 k-means优缺点主要优点：是解决聚类问题的一种经典算法，简单、快速。对处理大数据集，该算法是相对可伸缩和高效率的。当结果簇是密集的，它的效果较好。主要缺点在簇的平均值被定义的情况下才能使用。必须事先给出k（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。不适合于发现非凸面形状的簇或者大小差别很大的簇。而且，它对于“躁声”和孤立点数据是敏感的。层次聚类方法层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止。具体又可分为：凝聚的层次聚类：一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。分裂的层次聚类：采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。层次聚类优缺点层次聚类方法是不可逆的，也就是说，当通过凝聚式的方法将两组合并后，无法通过分裂式的办法再将其分离到之前的状态，反之亦然。另外，层次聚类过程中调查者必须决定聚类在什么时候停止，以得到某个数量的分类。在不必要的情况下应该小心使用层次聚类方法。基于密度方法的聚类密度聚类方法的指导思想是，只要一个区域中的点的密度大于某个域值，就把它加到与之相近的聚类中去。对于簇中每个对象，在给定的半径ε的邻域中至少要包含最小数数目（MinPts）个对象。这类算法能克服基于距离的算法只能发现“类圆形”的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感。代表算法有：DBSCAN、OPTICS、DENCLUE算法等。传统的密度定义：基于中心的方法传统基于中心的密度定义为：数据集中特定点的密度通过该点ε半径之内的点计数(包括本身)来估计。显然，密度依赖于半径。 DBSCAN算法概念示例如图所示， ε 用一个相应的半径表示，设MinPts=3，请分析Q,M,P,S,O,R这5个样本点之间的关系。 DBSCAN算法步骤输入：数据集D，参数MinPts, ε 输出：簇集合 (1) 首先将数据集D中的所有对象标记unvisited ； (2) do (3) 从D中随机选取一个unvisited对象p，并将p标记为visited ； if p的 ε 邻域包含的对象数至少为MinPts个创建新簇C ，并把p添加到c中；令N为 p的 ε 邻域中对象的集合； (7) for N 中每个点pi if pi 是unvisited 标记pi 为visited； if pi 的ε 邻域至少有MinPts个对象，把这些对象添加到N ； if pi 还不是任何簇的对象。将 pi 添加到簇C中； (12) end for (13) 输出C (14) Else 标记p 为噪声 (15) Untill 没有标记为unvisited 的对象 DBSCAN聚类过程第1步，在数据库中选择一点1，由于在以它为圆心的，以1为半径的圆内包含2个点（小于4），因此它不是核心点，选择下一个点。第2步，在数据库中选择一点2，由于在以它为圆心的，以1为半径的圆内包含2个点，因此它不是核心点，选择下一个点。第3步，在数据库中选择一点3，由于在以它为圆心的，以1为

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于密度方法的聚类(免费阅读).pptVIP