dbscan算法实验报告.docxVIP

  • 119
  • 0
  • 约9.33千字
  • 约 11页
  • 2018-07-10 发布于上海
  • 举报
算法概述 1. 密度聚类原理  DBSCAN是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。  通过将紧密相连的样本划为一类,这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别,则我们就得到了最终的所有聚类类别结果。2. DBSCAN密度定义  DBSCAN是基于一组邻域来描述样本集的紧密程度的,参数(?, MinPts)用来描述邻域的样本分布紧密程度。其中,?描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为?的邻域中样本个数的阈值。假设我的样本集是D=(x1,x2,...,xm),则DBSCAN具体的密度描述定义如下:    1) ?-邻域:对于xj∈D,其?-邻域包含样本集D中与xj的距离不大于?的子样本集,即N?(xj)={xi∈D|distance(xi,xj)≤?}, 这个子样本集的个数记为|N?(xj)|    2) 核心对象:对于任一样本xj∈D,如果其?-邻域对应的N?(xj)至少包含MinPts个样本,即如果|N?(xj)|≥MinPts,则xj是核心对象。     3)密度直达:如果xi位于xj的?-邻域中,且xj是核心对象,则称xi由xj密度直达。注意反之不一定成立,即此时不能说xj由x

文档评论(0)

1亿VIP精品文档

相关文档