1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DBSCAN算法 數据挖掘作業 1025117002 古耀華 10計機1班 引言 数据聚类是发现事物自然分类的一种方法,也是机器学习和模式识别中的一个重要任务。对于把一个d-维的数据分成k个集合的问题,要得到全局最优解的算法是NP-hard问题[1]。目前,聚类算法主要有划分方法、层次方法、局部方法和模型方法[2]等几种类型。DBSCAN算法属于局部方法,它可以发现任意形状的聚类[3],具有较强的聚类能力。在DBSCAN算法中参数值是人为给定的,其中参数Eps的值在很大程度上影响最终的聚类结果。更客观地确定参数Eps的值是DBSCAN算法获得较好聚类结果的关键。 簡介 DBSCAN 算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类的概念,即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阈值。 DBSCAN算法描述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。 DBSCAN算法描述 DBSCAN的执行过程是一个簇区域不断扩张的过程,所以与KMEANS不同(KMEANS对噪声数据非常敏感,也就是说KMEANS算法可能会因为噪声点而影响其计算结果),DBSCAN可以发现任意形状的聚类,并且可以发现样本集合中的噪声。在DBSCAN中没有被包含在任何簇中的样本对象就是噪声对象。 DBSCAN算法的聚类过程 DBSCAN算法基于一个事实:一个聚类可以由其中的任何核心对象唯一确定。等价可以表述为: 任一满足核心对象条件的数据对象p,数据库D中所有从p密度可达的数据对象o所组成的集合构成了一个完整的聚类C,且p属于C。 DBSCAN算法思想 為了找到一個密度相連集合,仌數据集中任意一個對象p开始聚类,如果p是核心對象,即以p為圓心,Eps為半徑的圓中對象的數量大于等于Mins Pts,那么算法返回一個密度相連的集合,將這個集合內的所有對象都柰示為同一簇;如果p不是一個核心對象,沒有其他對象从p密度可达,那么p被柰示為噪声。 DBSCAN算法對每一個未扫描的点做上述處理,最後密度相連的對象被柰示到同一個簇中,不包含在任何簇中的對象為噪声.對于數据集中的任何一個核心對象,都能够返回一個密相連的集合。 DBSCAN中的几个定义 密度可达是直接密度可达的传递闭包,非对称性关系;密度相连是对称性关系。DBSCA目的是找到密度相连对象的最大集合。 E领域:给定对象p半径为E内的区域称为该对象的E领域; 核心对象:p的E领域内样本数大于MinPts(算法输入值),则该对象p为核心对象; 直接密度可达:对于样本集合D,如果样本点q在p的E领域内,且p为核心对象,则p直接密度可达q; 密度可达:对于样本集合D,存在一串样本点p1,p2,p3,...pn,其中连续两个点直接密度可达,则 p=p1,q=qn,则p密度可达q; 密度相连:对于样本集合D中任意一点o,存在p到o密度可达,并且q到o密度可达,那么q从p密度相连; DBSCAN基本概念 定义1:(Eps近邻)一个给定对象的Eps半径内的近邻就称为该对象的Eps近邻(Eps Neighbourhood of a point),用NEps(p)表示,定义为: NEps(p)={q∈D|dist(p,q)≤Eps} 定义2:(核对象)对于一个给定对象, 如果在参数Eps半径的大小内包含等于Minpts或者超过Minpts的近邻,那么则称它为核对象(Core Object),表示为CO。 定义3:(边界对象)对于一个给定对象,如果它属于某个核的近邻而自己不是核,那么称它为边界对象(Border Object),表示为BO。 定义4:(直接密度可达)对于给定的Minpts和Eps,从对象q可以直接密度可达(directly density-reachable)p需要满足的条件是: p∈NEps(q) |NEps(q)|≥Minpts DBSCAN基本概念 定义5:(密度可达)对于给定的Minpts和Eps,从对象q可以密度可达(density-reachable)p需要满足的条件是:存在一串对象p1,…,pn,p1=p,pn=q,其中从pi可以直接密度可达p(i+1)。 定义6:(密度连接)对于给定的Minpts和Eps,p和q是密度连接(density-connectivity)的所需要的条件是:存在一个对象o

文档评论(0)

fpiaovxingl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档