- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.4 基于密度的聚类算法 基于密度的聚类算法有:DBSCAN、GDBSCAN、OPTICS、DBCLASD等 本节介绍基于密度聚类的基本思路和基本概念,然后介绍DBSCAN 基于密度的算法聚类时一般不需给定聚类数k,聚类的个数由算法的结果确定。 DBSCAN(Density Based Spatial Clustering of Applications with Noise) 一、基本思路 属于一个聚类的各点之间距离较小,密度较大。密度类似于相似度。 密度可以用一定范围内点数来表示。 在一个点的一定距离范围内点很少,则可认为该点是孤立点(类)。去除孤立点可以减少计算量,同时可以提高聚类精度。 点的密度是一种关系,能传递。因此若某点是密度高的,与它邻近的其它点可以继续寻找它们的邻近点,看它们是否也是密度高的。 二、几个概念 直接密度可达的 点q的Eps邻域: 点p和q如果满足如下条件: 则称点p是从点q直接密度可达的,并且点q成为核。 其中Eps和MinPts是需要提供给算法的参数,分别表示点的邻域半径和该邻域的最少点数。 密度可达的 如果存在点的序列: 其中 是从 直接密度可达的,则称点pi+1是从q关于Eps和MinPts密度可达的。 密度相连的 如果存在点r,p,q,p和q都是从点r关于Eps和MinPts密度可达的,则称点p是从点q关于Eps和MinPts密度相连的 基于密度的簇 令D表示数据集,D的一个非空集合C满足下列条件 对任意点p和q,若 且q是从p关于Eps和MinPts密度可达的,则有 p与q是关于Eps和MinPts密度相连的。 则称C是基于密度的簇 噪声点集 令 是数据集中关于不同参数Eps和MinPts的基于密度的簇,则点集 称作噪声点集 令p为数据集D中的一个点, ,则集合 是基于密度的簇 令C是一个关于Eps和MinPts的簇,p为C中某个满足 的点,则C应满足下列条件 关于密度可达的图示 三、DBSCAN算法 输入 ,Eps和MinPts 随机选择一点 ,检索它的Eps邻域,若该邻域的点数不少于MinPts,则点 是第一个核,它的Eps邻域内的点都是关于 直接密度可达的。 检索所有从点 的密度可达点,这就生成第一个基于密度的簇。 访问数据集的下一个点,并同样形成另一个基于密度的簇。 基于参数Eps和MinPts,若没有新的点是从任何簇中的点密度可达的,则计算结束。D中剩下的点是噪声点集,予以删除。 DBSCAN的特点 基于密度也需要距离计算 每个基于密度的簇就是一个聚类 可以识别孤立点类 计算时间复杂度为O(nlogn),因此效率较高 它需要用户给定控制参数Eps和MinPts,这两个参数对聚类质量有较大影响,而用户往往不能准确设定这两个参数 高维数据集分布不均匀,难以给出一组全局的参数(Eps和MinPts)来刻画内在的聚类结构。 例2-9 用DBSCAN对例2-2 实例聚类:Eps=0.6,MinPts=1 例2.9中各点之间的距离矩阵 计算有关点的邻域 随机选择点x1,根据上述距离矩阵,可以给出Eps的邻域为 ,其点数=2MinPts,因此x1是核。 再给出 的Eps邻域,没有增加新的点,点 互相直接密度可达的,它们成为一个基于密度的簇。 再选择x2,求它的Eps邻域为x4, x4的Eps邻域为x5, x5的邻域没有新点,因此它们构成基于密度的簇。 求基于密度的簇 同样可发现{x6 ,x7}构成基于密度的簇。 因此我们找到三个基于参数Eps=0.6和MinPts=1的簇 如果设Eps=0.5,则x2将从第二簇中分离出来,成为孤立点。该点可以删除。 OPTICS简介 OPTICS(Ordering Points to Identify the Clustering Structure) OPTICS与DBSCAN在结果上是等价的,时间复杂度相同。 OPTICS 主要为解决DBSCAN的两个控制参数问题而设计的,它能够自动和交互地通过修正两参数,为用户提供一个可扩展的簇次序,不是只生成一个明确的聚类。簇的次序刻画了表达数据集的基于密度的聚类结构(类似于聚集层次算法的结果)。 * * 0.3 4.8 1.3 8 0.5 2.1 0.9 7 0.5 2.0 1.0 6 0.8 4.2 2.1 5 0.9 4.0 2.2 4 0.4 5.0 1
原创力文档


文档评论(0)