- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SA2DBSCAN一种自适应基于密度聚类算法3-电子科学技术.PDF
第 26 卷第 4 期 中 国科 学 院 研 究 生 院 学 报 Vol . 26 No . 4
2009 年 7 月 Journal of the Graduate School of the Chinese Academy of Sciences July 2009
( )
文章编号 2009
SAD BSCAN :一种自适应基于密度聚类算法
夏鲁宁 荆继武
( 中国科学院研究生院 , 信息安全国家重点实验室 ,北京 100049)
(2008 年 6 月 26 日收稿 ; 2008 年 12 月 25 日收修改稿)
Xia L N,Jing JW. SAD BSCAN :A selfadaptive densitybased clustering algorithm[ J] . Journal of the Graduate School of the
Chinese Academy of Sciences ,2009 ,26( 4) :530~538.
摘 要 DBSCAN 是一种经典的基于密度聚类算法 ,能够 自动确定簇的数量 ,对任意形状的簇
都能有效处理. DBSCAN 算法需要人为确定 Ep s 和 minPts 2 个参数 ,导致聚类过程需人工干预
才能进行. 在 DBSCAN 的基础上提出了 SADBSCAN 聚类算法 ,通过分析数据集统计特性来 自
动确定 Ep s 和 minPts 参数 ,从而避免了聚类过程的人工干预 ,实现聚类过程的全 自动化. 实验
表明 ,SADBSCAN 能够选择合理的 Ep s 和 minPts 参数并得到较高准确度的聚类结果.
关键词 数据挖掘 ,聚类 ,DBSCAN ,SADBSCAN
中图分类号 TP181
1 概述
数据挖掘作为一种从大量数据中发现感兴趣信息的技术 , 已经得到日益广泛的应用. 聚类是一种重
要的数据挖掘技术 ,其任务是将数据集分成若干个簇 , 同一个簇中的数据具有较高的相似性 ,而不同簇
中的数据之间的相似性较低.
目前已经存在 的聚类算法大致可 以分为 4 种类型 : ( 1) 基于划分 的聚类算法 , 如 kmeans[ 1] 、
kmedoids[2 ] 等. 这种算法需要设定簇的数量 ,根据对象间的相似性将每个对象划归最近的簇. 这种算法
能够发现超球状的簇. (2) 层次聚类算法. 层次聚类可以从 2 个方向产生 ,第一是凝聚 ,首先将所有对象
标记为簇 ,然后逐次合并距离最小的簇 ;第二是分裂 ,先将整个数据集视为一个簇 ,然后逐次分裂样本较
多的簇. 层次聚类需要人为设定终止条件 ,即凝聚或分裂到何种程度为止. 根据簇相似性的不同定义 ,层
( ) ( ) ( ) [3 ]
次聚类算法有单链 singlelink 、全链 completelink 、组平均 group average 、Ward 方法 、BIRCH 和 CURE
( ) ( ) [3 ]
等. 3 基于统计模型的算法 ,如期望最大化 EM 算法. 这类算法基于数理统计理论 ,假定数据集是由
一个统计过程产生的 ,并通过找出最佳拟合模型来描述数据集. (4) 基于密度的算法 ,其中心思想是寻找
数据集中被低密度区域隔开的高密度区域 ,并将每个独立的高密度区域作为一个簇. 根据对密度的不同
定义 ,典型算法有 DBSCAN[4 ] 、OPTICS[5 ] 、DENCLULDE[6 ] 等.
基于密度的聚类方法以数据集在空间分布上的稠密程度为依据进行聚类 ,无需预
文档评论(0)