dbscan文档.docVIP

下载本文档

10
0
约4.51千字
约 6页
2017-10-30 发布于浙江
举报
版权申诉

dbscan文档.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

dbscan文档

密度聚类算法报告研14许鑫201400358005 摘要聚类分析是数据挖掘的重要方法。该文阐述了基于密度聚类分析的基本概念及其经典的算法思想，并提出了一种基于核心点进行聚类的算法。该算法首先对点进行分类，分出核心点、边界点和噪音点。然后采用自下而上的方式对簇进行合并。对所有数据进行分类并合并标记后，给出最后结果图。算法保证了数据处理的完整性。密度聚类的相关概念对于构成簇的每个对象，其Eps邻域包含的对象个数必须不小于一个给定值（MinPts），也就是说其邻域的密度必须不小于某个阈值。下面给出基于密度聚类算法分析中的一些定义。直接密度可达：设 p是核心点，如果q在p的Eps邻域内，则称从p出发直接可达q。　　密度相连：如果样本集合中存在一个对象o ，使得对象p 和q 是从o 关于Eps邻域和MinPts 密度可达的，那么对象p 和q 关于Eps和MinPts 密度相连。簇：基于密度可达性的最大的密度相连的点的集合称为簇。噪音点：不在任何簇中的对象。原理考察样本集中的某一点o，若o是核心点，则通过区域查询得到该点的邻域，邻域中的点和o同属于一个簇，这些点将作为下一轮的考察对象（即种子点），并通过不断地对种子点进行区域查询来扩展它们所在的簇，直至找到一个完整的簇。然后，依此程序寻找其它的簇。最后剩下的不属于任何类的点即为噪音点。算法流程算法描述：算法： dbscan 输入： Eps—半径。 MinPts—给定点在Eps邻域内成为核心对象的最小邻域点数。数据集。输出：聚成的簇的图形。 Repeat 从数据集中抽取一个未处理的点； If 该点为核心点 Then找出该点密度可达的点，构成一个簇； Else goto 2；簇外的点都标记成噪声； Until 所有的点都被处理过； 5.输入函数和子函数 5.1输入函数： MinPts=5; %阈值 Eps=1; %半径 [m,n]=size(data);%得到数据的大小 x=[(1:m) data];%将数据存到x中，并加上标号1-m [m,n]=size(x);%载入数据集的大小 type=zeros(m,1);%用于区分核心点1，边界点0和噪音点-1 dealed=zeros(m,1);%用于判断该点是否处理过,0表示未处理过,1表示处理过 dis=calDistance(x(:,2:n-1));%距离矩阵计算 class=zeros(1,m);%颜色分类 number=1;%簇号 5.2子函数： % 计算矩阵中点与点之间的距离 function [ dis ] = calDistance( x ) [m,n] = size(x); %给m，n赋值 dis = zeros(m,m); %距离矩阵 for i = 1:m %计算点i和点j之间的欧式距离 for j = i:m tmp =0; for k = 1:n %n维循环 tmp = tmp+(x(i,k)-x(j,k)).^2; end dis(i,j) = sqrt(tmp); dis(j,i) = dis(i,j); end end end % 画出Eps和minpots的曲线 data=load(C:\Users\sinx\Desktop\data\rings.txt); [m,n]=size(data);%得到数据的大小 x=[(1:m) data];%将数据存到x中，并加上标号1-m Dis=calDistance(x(:,2:n-1));%距离矩阵计算 Dis_4=sort(Dis,2); e=Dis_4(:,4); e=-sort(-e);%降序排列 plot(e) axis([0,100,0,0.5]) 5.3确定EPS和MinPts 求出所有点的第5近邻记为dis_5，并将dis_5按照降序排列，找出Eps值相对平缓的点作为Eps，并且Minpts取值为5. 如下图5-1. 图5-1（数据集rings.txt） 6.算法分析本程序采用密度聚类算法（DBSCAN），目的在于过滤低密度区域，发现稠密度样本点。优点：在执行时不需要知道簇的数目，簇的大小，以及可以对任意维度的样本都可以得出良好的结果。并且对噪声有一定的抗干扰能力。缺点：当点的距离都比较接近的时候，无法执行出良好的结果；当数据集的密度是可变的时候，也无法得出良好的结果。 7.结