- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
dbscan文档
密度聚类算法报告
研14许鑫201400358005
摘要
聚类分析是数据挖掘的重要方法。该文阐述了基于密度聚类分析的基本概念及其经典的算法思想,并提出了一种基于核心点进行聚类的算法。该算法首先对点进行分类,分出核心点、边界点和噪音点。然后采用自下而上的方式对簇进行合并。对所有数据进行分类并合并标记后,给出最后结果图。算法保证了数据处理的完整性。
密度聚类的相关概念
对于构成簇的每个对象,其Eps邻域包含的对象个数必须不小于一个给定值(MinPts),也就是说其邻域的密度必须不小于某个阈值。下面给出基于密度聚类算法分析中的一些定义。
直接密度可达:设 p是核心点,如果q在p的Eps邻域内,则称从p出发直接可达q。
密度相连:如果样本集合中存在一个对象o ,使得对象p 和q 是从o 关于Eps邻域和MinPts 密度可达的,那么对象p 和q 关于Eps和MinPts 密度相连 。
簇:基于密度可达性的最大的密度相连的点的集合称为簇。
噪音点:不在任何簇中的对象。
原理
考察样本集中的某一点o,若o是核心点,则通过区域查询得到该点的邻域,邻域中的点和o同属于一个簇,这些点将作为下一轮的考察对象(即种子点),并通过不断地对种子点进行区域查询来扩展它们所在的簇,直至找到一个完整的簇。然后,依此程序寻找其它的簇。最后剩下的不属于任何类的点即为噪音点。
算法流程
算法描述:
算法: dbscan
输入: Eps—半径。
MinPts—给定点在Eps邻域内成为核心对象的最小邻域点数。
数据集。
输出: 聚成的簇的图形。
Repeat
从数据集中抽取一个未处理的点;
If 该点为核心点
Then找出该点密度可达的点,构成一个簇;
Else goto 2;
簇外的点都标记成噪声;
Until 所有的点都被处理过;
5.输入函数和子函数
5.1输入函数:
MinPts=5; %阈值
Eps=1; %半径
[m,n]=size(data);%得到数据的大小
x=[(1:m) data];%将数据存到x中,并加上标号1-m
[m,n]=size(x);%载入数据集的大小
type=zeros(m,1);%用于区分核心点1,边界点0和噪音点-1
dealed=zeros(m,1);%用于判断该点是否处理过,0表示未处理过,1表示处理过
dis=calDistance(x(:,2:n-1));%距离矩阵计算
class=zeros(1,m);%颜色分类
number=1;%簇号
5.2子函数:
% 计算矩阵中点与点之间的距离
function [ dis ] = calDistance( x )
[m,n] = size(x); %给m,n赋值
dis = zeros(m,m); %距离矩阵
for i = 1:m %计算点i和点j之间的欧式距离
for j = i:m
tmp =0;
for k = 1:n %n维循环
tmp = tmp+(x(i,k)-x(j,k)).^2;
end
dis(i,j) = sqrt(tmp);
dis(j,i) = dis(i,j);
end
end
end
% 画出Eps和minpots的曲线
data=load(C:\Users\sinx\Desktop\data\rings.txt);
[m,n]=size(data);%得到数据的大小
x=[(1:m) data];%将数据存到x中,并加上标号1-m
Dis=calDistance(x(:,2:n-1));%距离矩阵计算
Dis_4=sort(Dis,2);
e=Dis_4(:,4);
e=-sort(-e);%降序排列
plot(e)
axis([0,100,0,0.5])
5.3确定EPS和MinPts
求出所有点的第5近邻记为dis_5,并将dis_5按照降序排列,找出Eps值相对平缓的点作为Eps,并且Minpts取值为5. 如下图5-1.
图5-1(数据集rings.txt)
6.算法分析
本程序采用密度聚类算法(DBSCAN),目的在于过滤低密度区域,发现稠密度样本点。
优点:在执行时不需要知道簇的数目,簇的大小,以及可以对任意维度的样本都可以得出良好的结果。并且对噪声有一定的抗干扰能力。
缺点:当点的距离都比较接近的时候,无法执行出良好的结果;当数据集的密度是可变的时候,也无法得出良好的结果。
7.结
您可能关注的文档
- AOP -- 声明式切片.pdf
- ANSYS在结构稳定性中的应用.pdf
- ansys怎样循环保存结果.pdf
- ansys非线性收敛准则——转载.doc
- aoz_假设检验.pdf
- appSettings是干什么用的.docx
- ARFCN_绝对无线频道编号_介绍.doc
- arm_linux_device_mem内存映射.doc
- AT-201-SC说明书.pdf
- ATM系统的设计与UML建模.docx
- DCC基因与妇科肿瘤的研究.pdf
- DCL-160A-UIDA-0.36mH直流平波电抗器75KW变频器专用直流电抗器.pdf
- DCL-200A-UIDA-0.3mH直流平波电抗器110KW变频器专用直流电抗器.pdf
- DCL-3A-UIDA-28mH直流平波电抗器0.75KW变频器专用直流电抗器.pdf
- DCL-40A-UIDA-1.3mH直流平波电抗器18KW变频器专用直流电抗器.pdf
- DCL-50A-UIDA-1.1mH直流平波电抗器22.5KW变频器专用直流电抗器.pdf
- DCL-600A-UIDA-0.09mH直流平波电抗器280KW变频器专用直流电抗器.pdf
- DCL-700A-UIDA-0.062mH直流平波电抗器315KW变频器专用直流电抗器.pdf
- DCL-800A-UIDA-0.055mH直流平波电抗器360KW变频器专用直流电抗器.pdf
- DCS远程通讯干扰的原因和解决办法.doc
最近下载
- 拔苗助长-课件.ppt VIP
- 关于水土保持监理、监测、勘测设计费.pdf VIP
- 八选一数据选择器详解.doc VIP
- QSPI 9739-2016 风力发电场技术监督规程.pdf VIP
- 2025年陕西从优秀村(社区)干部中录用公务员(200人)考试备考题库及答案解析.docx VIP
- 2025年神经科学领域侵入式脑机接口电极材料研发热点与应用趋势.docx VIP
- ECharts数据可视化课件 第2章 折线图和饼图.pptx VIP
- 《ISO17665-1翻译版》.doc
- 冀人版(2024)新教材小学三年级科学上册第一单元《2 动物的身体》课时一 精品课件.pptx
- 污水处理厂风险分级管控与隐患排查治理.pptx VIP
原创力文档


文档评论(0)