dbscan文档.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
dbscan文档

密度聚类算法报告 研14许鑫201400358005 摘要 聚类分析是数据挖掘的重要方法。该文阐述了基于密度聚类分析的基本概念及其经典的算法思想,并提出了一种基于核心点进行聚类的算法。该算法首先对点进行分类,分出核心点、边界点和噪音点。然后采用自下而上的方式对簇进行合并。对所有数据进行分类并合并标记后,给出最后结果图。算法保证了数据处理的完整性。 密度聚类的相关概念 对于构成簇的每个对象,其Eps邻域包含的对象个数必须不小于一个给定值(MinPts),也就是说其邻域的密度必须不小于某个阈值。下面给出基于密度聚类算法分析中的一些定义。 直接密度可达:设 p是核心点,如果q在p的Eps邻域内,则称从p出发直接可达q。   密度相连:如果样本集合中存在一个对象o ,使得对象p 和q 是从o 关于Eps邻域和MinPts 密度可达的,那么对象p 和q 关于Eps和MinPts 密度相连 。 簇:基于密度可达性的最大的密度相连的点的集合称为簇。 噪音点:不在任何簇中的对象。 原理 考察样本集中的某一点o,若o是核心点,则通过区域查询得到该点的邻域,邻域中的点和o同属于一个簇,这些点将作为下一轮的考察对象(即种子点),并通过不断地对种子点进行区域查询来扩展它们所在的簇,直至找到一个完整的簇。然后,依此程序寻找其它的簇。最后剩下的不属于任何类的点即为噪音点。 算法流程 算法描述: 算法: dbscan 输入: Eps—半径。 MinPts—给定点在Eps邻域内成为核心对象的最小邻域点数。 数据集。 输出: 聚成的簇的图形。 Repeat 从数据集中抽取一个未处理的点; If 该点为核心点 Then找出该点密度可达的点,构成一个簇; Else goto 2; 簇外的点都标记成噪声; Until 所有的点都被处理过; 5.输入函数和子函数 5.1输入函数: MinPts=5; %阈值 Eps=1; %半径 [m,n]=size(data);%得到数据的大小 x=[(1:m) data];%将数据存到x中,并加上标号1-m [m,n]=size(x);%载入数据集的大小 type=zeros(m,1);%用于区分核心点1,边界点0和噪音点-1 dealed=zeros(m,1);%用于判断该点是否处理过,0表示未处理过,1表示处理过 dis=calDistance(x(:,2:n-1));%距离矩阵计算 class=zeros(1,m);%颜色分类 number=1;%簇号 5.2子函数: % 计算矩阵中点与点之间的距离 function [ dis ] = calDistance( x ) [m,n] = size(x); %给m,n赋值 dis = zeros(m,m); %距离矩阵 for i = 1:m %计算点i和点j之间的欧式距离 for j = i:m tmp =0; for k = 1:n %n维循环 tmp = tmp+(x(i,k)-x(j,k)).^2; end dis(i,j) = sqrt(tmp); dis(j,i) = dis(i,j); end end end % 画出Eps和minpots的曲线 data=load(C:\Users\sinx\Desktop\data\rings.txt); [m,n]=size(data);%得到数据的大小 x=[(1:m) data];%将数据存到x中,并加上标号1-m Dis=calDistance(x(:,2:n-1));%距离矩阵计算 Dis_4=sort(Dis,2); e=Dis_4(:,4); e=-sort(-e);%降序排列 plot(e) axis([0,100,0,0.5]) 5.3确定EPS和MinPts 求出所有点的第5近邻记为dis_5,并将dis_5按照降序排列,找出Eps值相对平缓的点作为Eps,并且Minpts取值为5. 如下图5-1. 图5-1(数据集rings.txt) 6.算法分析 本程序采用密度聚类算法(DBSCAN),目的在于过滤低密度区域,发现稠密度样本点。 优点:在执行时不需要知道簇的数目,簇的大小,以及可以对任意维度的样本都可以得出良好的结果。并且对噪声有一定的抗干扰能力。 缺点:当点的距离都比较接近的时候,无法执行出良好的结果;当数据集的密度是可变的时候,也无法得出良好的结果。 7.结

文档评论(0)

wnqwwy20 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档