通过数据取样扩展基于密度的聚类算法.pdfVIP

通过数据取样扩展基于密度的聚类算法.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第35卷专辑 兰州大学学报(自然科学学版) Vol35Supp 1999年8月 JournalofLanzhou University(NaturalSciences) Aug.1999 07 文章编号:0455—2059(1999)0319 通过数据取样扩展基于密度的聚类算法 7j一、■,j、 范晔,周水庚,曹晶,周傲英 (复旦大学计算付【科学系.I.海200433) 摘要:数据聚类(clustering)是数据挖掘中是广为研究的课题之一.聚类技术在许多领域有 着广泛的成用基于离度的聚类算法(DBSCAN)足--fl,有敛的空间聚类算法,它能发现任意形 规模空间数据库数据聚类时需要较人的内存和I/O消耗奉文在分析原吖rDBSCAN算法的基础 上,通过数据取样米扩展DBSCAN算法,使之仃效地处理大地模空间数据库测试结果表明本文 方法是有效的、可行的 关键词:卒问数据库;数据挖掘;数据聚类:数据取样:DBSCAN算法 0引言 近年米,随着空间数据库规模的日益增人,如何提高查询效率平IJ从大量数据空间中提 取有用的模式显得尤为重要数据聚类(cluslering)是数据挖掘中广为研究的课题之一【”.它 从数据库中寻找数据问的相似性,并依此对数据进行分类,使得不同炎中的数据尽可能相异, 而同一类中的数据尽可能相似,从而优化人规模数据库的查询和发现数据中隐含的有用信息 或知识.数据聚类在很多领域有着广泛的麻川,如模式识别、模式识别和数据压缩等.迄今, 人们已提山了不少数据聚类的算法,如DBSCANt“、CURE[3】和BIRCHt5】等等. DBSCAN算法是一种基丁密度的空间聚类算法它要求聚类中数据对象的邻域所包含 的对象数日不小于某一给定的值.其显著优点在于算法效率与空间聚类的形状无关,且能有 效处理噪音点,但由于DBSCAN直接对挫个数据库进行操作,且在进行聚类操作之前先要 建立相应的R+树和绘制k-dist图,冈此算法所需的内存空问和1/{3时间都是十分可观的当 数据量很大时,DBscAN甚至根本无法运行. 在进行大规模空间数据库的聚类时,数据取样是一种常刖的方法,即从数据库中随机 选取一部分数据代表整个数据库中的数据,并通过对取样数据的聚类计算达到对整个数据库 数据的聚类但是,由于没有考虑整个数据库中的数据,聚类质量必然会受到一定负面影响. 本文即是利用数据取样米扩展DBSCAN算法,实验证明我们的方法在保证聚类质量的前提 F,还提高了聚类速度. . 收稿日期:1999.03.16 基金项目:周家自然科学基金和博Ij点幕金资助 作者简介:范晔(1976.),男,硕L{i】f究生 320 兰州大学学报(自然科学学版) 第35卷 本文其他山容安排如F:第二。^简要介绍DBSCAN算法,并分析其局限性;第三1,提 行比较;第五1,总结全文,并指…今后的研究方向 1 DBSCAN算法 DBSCAN算法是基于密度的聚类算法.为了便于说明问题又不失一般性,以下我们仅限 _丁二维空间中讨论聚类问题.首先给出几个定义: 定义1.1(密度)空间中一点的密度为以该点为圆心、以Eps为半径的圆内包含的点 的数目. 定义1.2(邻域)空间中一点的邻域为以该点为圆心、以Eps为半释的圆内包含的点 的集合.记作N‰(P)={q∈D1dist(P,q)一Eps). 核心点. 定义1.4(边界点)空间中菜一点的密度如果小于某一给定的值MinPts,则称该点为 边界点. 定义15(直接密度可达到)点P到点q直接密度可达到,若: 1)P是q的邻居.即P∈N‰(q)i 2)q是核心点,即{N。I-≥MinPts. 定义16(密度可达到)点P到点q密度可逃到,若3p。,P2,¨,P。,其中pl=q,Pn=p, 满足P.到P。直接密度可达到. 到的

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档