- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于密度的聚类算法DBSCAN聚类算法 DBSCAN DBSCAN是一个基于密度的聚类算法.(他聚类方法大都是基于对象之间的距离进行聚类,聚类结果是球状的簇) 基于密度的聚类是寻找被低密度区域分离的高密度区域。 密度的定义 传统的密度定义:基于中心的方法 传统基于中心的密度定义为: 数据集中特定点的密度通过该点Eps半径之内的点计数(包括本身)来估计。 显然,密度依赖于半径。 DBSCAN 基于密度定义,我们将点分为: 稠密区域内部的点(核心点) 稠密区域边缘上的点(边界点) 稀疏区域中的点(噪声或背景点). DBSCAN 核心点(core point) :在半径Eps内含有超过MinPts数目的点,则该点为核心点 这些点都是在簇内的 边界点(border point):在半径Eps内点的数量小于MinPts,但是在核心点的邻居 噪音点(noise point):任何不是核心点或边界点的点. DBSCAN: 核心点、边界点和噪音点 DBSCAN: 核心点、边界点和噪音点 DBSCAN算法概念示例 如图所示,Eps用一个相应的半径表示,设MinPts=3,请分析Q,M,P,S,O,R这5个样本点之间的关系。 DBSCAN算法原理 DBSCAN通过检查数据集中每点的Eps邻域来搜索簇,如果点p的Eps邻域包含的点多于MinPts个,则创建一个以p为核心对象的簇。 然后,DBSCAN迭代地聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。 当没有新的点添加到任何簇时,该过程结束. DBSCAN算法伪代码 输入:数据集D,参数MinPts,Eps 输出:簇集合 (1) 首先将数据集D中的所有对象标记为未处理状态 (2) for 数据集D中每个对象p do (3) if p已经归入某个簇或标记为噪声 then (4) continue; (5) else (6) 检查对象p的Eps邻域 ; (7) if 包含的对象数小于MinPts then (8) 标记对象p为边界点或噪声点; (9) else (10) 标记对象p为核心点,并建立新簇C, 并将p邻域内所有点加入C (11) for 中所有尚未被处理的对象q do (12) 检查其Eps邻域 , 若 包含至少MinPts个对象, 则将 中未归入任何一个簇的对象加入C; (13) end for (14) end if (15) end if (16) end for DBSCAN聚类算法的细节 DBSCAN运行效果好的时候 DBSCAN运行不好的效果 DBSCAN的其它问题 DBSCAN的时间复杂性 时间复杂度 DBSCAN的基本时间复杂度是 O(N*找出Eps领域中的点所需要的时间), N是点的个数。最坏情况下时间复杂度是O(N2) 在低维空间数据中,有一些数据结构如KD树,使得可以有效的检索特定点给定距离内的所有点,时间复杂度可以降低到O(NlogN) DBSCAM的空间复杂性 空间复杂度 低维或高维数据中,其空间都是O(N),对于每个点它只需要维持少量数据,即簇标号和每个点的标识(核心点或边界点或噪音点) 如何合适选取EPS和MinPts 思想是这样的对于在一个类中的所有点,它们的第k个最近邻大概距离是一样的 噪声点的第k个最近邻的距离比较远 所以, 尝试根据每个点和它的第k个最近邻之间的距离来选取 然后: Eps取什么? MinPts取什么? DBSCAN算法的优缺点 优点 基于密度定义,相对抗噪音,能处理任意形状和大小的簇 缺点 当簇的密度变化太大时,会有麻烦 对于高维问题,密度定义是个比较麻烦的问题 Original Points Point types: core, border and noise Eps = 10, MinPts = 4 DBSCAN算法概念 Eps邻域:给定对象半径Eps内的邻域称为该对象的Eps邻域,我们用 表示点p的Eps-半径内的点的集合,即: 核心对象:如果对象的Eps邻域至少包含最小数目MinPts的对象,则称该对象为核心对象。 边界点:边界点不
您可能关注的文档
- C语言数据类型技术总结.ppt
- C语言子函数技术总结.ppt
- d§4.4难溶电解质的多相离子平衡技术总结.ppt
- d1高一物理必修二7.7动能和动能定理(新)技术总结.ppt
- D2-4新人培训+-+超级带看技术总结.ppt
- D4_1不定积分技术总结.ppt
- D5_7物理应用技术总结.ppt
- D7_4一阶线性微分方程技术总结.ppt
- D8_7方向导数与梯度技术总结.ppt
- D10_1对弧长和曲线积分技术总结.ppt
- dcbp电磁说技术总结.ppt
- CFD杂分析报告.docx
- CFG桩基础施工组织设计分析报告.doc
- CG透视变换推导分析报告.doc
- 2016届高考地理一轮复习第13章第1讲《地理环境对区域发展的影响》教程解决方案.ppt
- DCS子系统功能技术总结.ppt
- 2016届高考地理一轮专题复习自然地理3.1自然界的水循环水资源的合理利用教程解决方案.ppt
- 2016届高考化学备考策略:用放飞希望,用策略收获梦想(共122张)教程解决方案.ppt
- 2016届高考化学二轮专题复习:常用化学计量教程解决方案.ppt
- CNAS-CL36:2012《医学实验室质量和能力认可准则在分子诊断领域的应用说明》(2014年第1次修订)(发布稿)分析报告.doc
最近下载
- DBJ51T 140-2020 四川省不透水土层地下室排水卸压抗浮技术标准.pdf VIP
- 中级无机化学(第二版)全书课件电子教案汇总.ppt
- 船舶保安员Z09_5384-航海知识.doc VIP
- 海尔管理案例分析.doc VIP
- DBJ51T 246-2024 四川省岩土工程勘察钻探护壁技术标准.pdf VIP
- (高清版)-B-T 28053-2023 铝合金内胆碳纤维全缠绕气瓶.pdf VIP
- 人教版高中物理必修第二册第8章机械能守恒定律1功与功率课件.ppt VIP
- 2025-2026学年山东省青岛市八年级上学期期中模拟英语试题(含解析).pdf VIP
- IEEE 1188-2005国外国际标准.pdf
- 安装、调试及验收方案,安装、调试及验收方案.doc VIP
原创力文档


文档评论(0)