- 85
- 0
- 约 16页
- 2016-12-29 发布于贵州
- 举报
DBSCAN算法 數据挖掘作業1025117002古耀華10計機1班 引言 数据聚类是发现事物自然分类的一种方法,也是机器学习和模式识别中的一个重要任务。对于把一个d-维的数据分成k个集合的问题,要得到全局最优解的算法是NP-hard问题[1]。目前,聚类算法主要有划分方法、层次方法、局部方法和模型方法[2]等几种类型。DBSCAN算法属于局部方法,它可以发现任意形状的聚类[3],具有较强的聚类能力。在DBSCAN算法中参数值是人为给定的,其中参数Eps的值在很大程度上影响最终的聚类结果。更客观地确定参数Eps的值是DBSCAN算法获得较好聚类结果的关键。 簡介 DBSCAN 算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类的概念,即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阈值。 DBSCAN算法描述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。 DBSCAN算法描述 DBSCAN的执行过程是一个簇区域不断扩张的过程,所以与KMEANS不同(KMEANS对噪声数据非常敏感,也就是说KMEANS算法可能会因为噪声点而影响其计算结果),DBSCAN可以发现任意形状的聚类,并且可以发现样本集合中的噪声。在DBSCAN中没有被包含在任何簇中的样本对象就是噪声对象。 DBSCAN算法的聚类过程 DBSCAN算法基于一个事实:一个聚类可以由其中的任何核心对象唯一确定。等价可以表述为: 任一满足核心对象条件的数据对象p,数据库D中所有从p密度可达的数据对象o所组成的集合构成了一个完整的聚类C,且p属于C。 DBSCAN算法思想 為了找到一個密度相連集合,仌數据集中任意一個對象p开始聚类,如果p是核心對象,即以p為圓心,Eps為半徑的圓中對象的數量大于等于Mins Pts,那么算法返回一個密度相連的集合,將這個集合內的所有對象都柰示為同一簇;如果p不是一個核心對象,沒有其他對象从p密度可达,那么p被柰示為噪声。 DBSCAN算法對每一個未扫描的点做上述處理,最後密度相連的對象被柰示到同一個簇中,不包含在任何簇中的對象為噪声.對于數据集中的任何一個核心對象,都能够返回一個密相連的集合。 DBSCAN中的几个定义 密度可达是直接密度可达的传递闭包,非对称性关系;密度相连是对称性关系。DBSCA目的是找到密度相连对象的最大集合。 E领域:给定对象p半径为E内的区域称为该对象的E领域; 核心对象:p的E领域内样本数大于MinPts(算法输入值),则该对象p为核心对象; 直接密度可达:对于样本集合D,如果样本点q在p的E领域内,且p为核心对象,则p直接密度可达q; 密度可达:对于样本集合D,存在一串样本点p1,p2,p3,...pn,其中连续两个点直接密度可达,则 p=p1,q=qn,则p密度可达q; 密度相连:对于样本集合D中任意一点o,存在p到o密度可达,并且q到o密度可达,那么q从p密度相连; DBSCAN基本概念 定义1:(Eps近邻)一个给定对象的Eps半径内的近邻就称为该对象的Eps近邻(Eps Neighbourhood of a point),用NEps(p)表示,定义为: NEps(p)={q∈D|dist(p,q)≤Eps} 定义2:(核对象)对于一个给定对象, 如果在参数Eps半径的大小内包含等于Minpts或者超过Minpts的近邻,那么则称它为核对象(Core Object),表示为CO。 定义3:(边界对象)对于一个给定对象,如果它属于某个核的近邻而自己不是核,那么称它为边界对象(Border Object),表示为BO。 定义4:(直接密度可达)对于给定的Minpts和Eps,从对象q可以直接密度可达(directly density-reachable)p需要满足的条件是: p∈NEps(q) |NEps(q)|≥Minpts DBSCAN基本概念 定义5:(密度可达)对于给定的Minpts和Eps,从对象q可以密度可达(density-reachable)p需要满足的条件是:存在一串对象p1,…,pn,p1=p,pn=q,其中从pi可以直接密度可达p(i+1)。 定义6:(密度连接)对于给定的Minpts和Eps,p和q是密度连接(density-connectivity)的所需要的条件是:存在一个对象o
您可能关注的文档
最近下载
- 医学课件-社区护理学——绪论.pptx VIP
- 2022年袋鼠数学思维Level-A (1-2年级) 真题+解析.pdf VIP
- 中国国家标准 GB/T 13761.1-2022土工合成材料 规定压力下厚度的测定 第1部分:单层产品.pdf
- (2025)全国辅警考试题库及答案.docx VIP
- 冀美版小学美术四年级下册全册教案.doc
- 设计与开发控制程序.docx VIP
- 专题26 导数及其应用解答题(八大考点,100题)(解析版)十年(2016-2025)高考数学真题分类汇编.docx
- 【建筑专业】12J502-2内装修室内吊顶(完整).pdf VIP
- 2-霍尼菲尔扫描头n5680操作手册.pdf VIP
- 大学Access数据库课件.pptx VIP
原创力文档

文档评论(0)