- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的基于密度的DSAN聚类算法BC.pdf
第 25卷 第 4期 广西师范大学学报 :自然科学版 Vo1.25 No.4
2007年 12月 JournalofGuangxiNormalUniversity:NaturalScienceEdition Dec.2007
一 种改进的基于密度的DBSCAN聚类算法
王翠茹 ,朵春红
(华北 电力大学 计算机学院,河北 保定 071003)
摘 要:主要讨论数据挖掘领域中一种基于密度的DBSCAN聚类算法,并对算法进行改进。利用取样技术缩
小数据库的规模,减少算法的运行时间。利用遗传算法对聚类结果进行优化,保证聚类的质量。给出了一种基
于取样的DBSCAN算法及其遗传优化。最后实验证明了算法的有效性。
关键词 :数据挖掘;聚类;DBSCAN算法;取样;遗传算法
中图分类号 :TP301.6 文献标识码 :A 文章编号:1001—6600(2007)04—0104—04
近年来,大量数据被存储到空间数据库中,如何提高查询效率和从大量数据中提取有用的模式显得尤
为重要。聚类分析是数据挖掘领域广为研究的课题之一[r。其基本思想是:按照数据的相似性和差异性,将
数据划分为若干组,同组的数据尽量相似 ,不同组的数据尽量相异 。迄今为止,已经提出了许多聚类算
法,主要有分割法、层次法、密度法、网格法和模型法等 。
1 DBSCAN聚类算法
EsterMartin等人提出的DBSCAN聚类算法[4是一种基于密度的聚类算法。该算法将具有足够高
密度的区域划分为一类,并可以在带有噪声的空间数据库中发现任意形状的聚类 。DBSCAN算法首先从
数据库中选择任意的一个对象 ,然后查找该对象 关于Eps和MinPts的可密度到达的所有对象。如果
对象 关于E s的邻域内所有对象个数大于某个阀值MinPts,则该对象 为核心对象,邻域 中的点将作
为下一次的考察对象,否则对象 被暂时标记为噪声点。若对象 是核心对象,则在数据库中存在一个关
于Es和MinPts的类 C,类C能够被其中的任意一个核心对象所确定。
在DBSCAN算法中,从一个核心对象密度可达的所有数据对象是通过反复进行区域查询来获取,这
种查询由R 一树帮助实现。因此,在进行聚类之前,必须建立R ~树,并把结果按距离排序,产生k-dist图。
建立R 一树和绘制 忌一dist图都是非常耗时的工作,大规模数据库尤其如此 。由于DBSCAN直接对整个数
据库进行操作,且进行聚类时使用了一个全局性的表征密度的参数,因此具有比较 明显的弱点:① 当数据
量增大时,要求较大的内存支持,I/O消耗也很大 。② 变量 s、MinPts是全局唯一的,因此当数据分布不
均匀或参数选取不当时聚类质量较差 。
2 SDGO算法
SDGO算法 (samplingDBSCANwithgeneticoptimization)的基本思想是:首先确定最小的数据取样
量,按取样率从数据集 中随机选取数据 ,对取样数据应用DBSCAN算法,然后应用遗传算法对聚类结果
进行优化,最后进行遗漏点处理及类合并。由于取样技术显著压缩了问题规模 ,而遗传算法又可以对结果
进行全局最优化处理,因此在时间性能和聚类质量上都能获得较满意的结果。
收稿 日期 :2007—06—25
基金项 目:国家 电网公司软课题研究项 目(SGZL[2OO3]229)
通讯联系人:王翠茹 (1954一),女,河北保定人,华北电力大学教授。E—mail:CF—wang@163.corn
第 4期 王翠茹等:一种改进的基于密度的DBSCAN聚类算法 1O5
2.1 数据取样
取样数据库应能够有效代表原数据库,若取样率太低 ,必然会丢失原数据库的某些特质,导致聚类效
果失真。取样率必须不小于某一阀值。本文选取Chernoffbounds确定的最小取样数据量63
minN一 +南-og +南 √(1og( +2flUnumllog , (1)
其 中Ⅳ为整个数据库包含的数据量;J }为最小类包含的数据量 。式 (1)表示当取样数据量不少于
minN 时,Unurn中被取到厂l“ 1个数据的概率不低于 ,O≤厂1。
2.2 遗传算法
文档评论(0)