一种基于数据划分改进DBSCAN算法.pdfVIP

下载本文档

16
0
约8.59千字
约 6页
2016-03-11 发布于安徽
举报
版权申诉

一种基于数据划分改进DBSCAN算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于数据划分改进DBSCAN算法.pdf

一种基于数据划分的改进的DBSCAN 算法孙业勤大连理工大学计算机科学与工程系，大连（116023 ） E-mail ：sun_ye_qin@ 摘要：聚类分析是数据挖掘的核心技术，针对 PDBSCAN 算法在密度差别不大的数据空间上无法进行分区聚类的问题。本文提出了IPDBSCAN 算法，可以有效的实现对此类数据空间的聚类。实验证明，本算法具有良好的聚类效果。关键词：数据挖掘；基于密度的聚类算法；数据分区；平均ε值中图法分类号：TP301.6 1．引言近年来，由于信息技术的不断发展，大量的数据被广泛的使用，因此迫切需要将这些数据转换为有用的信息和知识，为人们所获取。数据挖掘技术应运而生，并且引起了广泛的关注。数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。聚类分析是数据挖掘的核心技术，是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。对象根据最大化类内的相似性，最小化类间的相似性原则进行聚类。聚类是数据挖掘的前期预处理过程，良好的聚类会对数据挖掘的结果起到很大的作用。 2 ．基于密度的聚类算法 2 ．2 DBSCAN 算法 DBSCAN 算法是一种基于密度的聚类算法。该算法通过检查数据库中每个点的 ε 邻域来寻找类簇。如果一个点 p 的 ε邻域包含多于 MinPts 个点，则创建一个以 p 为核心对象的新簇。然后 DBSCAN 以这个簇中的点作为核心对象不断寻找直接密度可达的对象（如图1）。如此重复，当没有新的点可以被添加到任何簇时，该过程结束。这个过程可能包括一些密度可达类簇的合并。图 1 基于密度的聚类中密度可达和密度相连 (a)p 与 q 直接密度可达 (b)o,p,q 都是密度相连的但是，DBSCAN 算法也存在缺点,DBSCAN 算法需要用户输入两个参数，即 ε （邻域半径）和 Minpts （ε 邻域内包含对象的最少数目）。但是事实上用户很难在算法运行前确定参数的具体取值，而且该算法对参数是很敏感的。另外，全局参数 ε对于分布不均匀的数据空间也很难产生较好的聚类结果。 - 1 - 2 ．2 基于数据划分的 DBSCAN 算法 2.2.1 划分原理周水庚等人提出了一种基于分区的 DBSCAN 算法(PDBSCAN)[3]，这种算法的基本思想是：由于数据集的密度分布差异（如图 2 ），DBSCAN 算法很难获得比较理想的聚类效果，将数据空间依据某一维或多个维上的分布特性划分为若干个局部区域，然后对每个区域用 DBSCAN 算法分别进行聚类，最后将各个局部类合并。图2 存在数据密度分布差异的数据空间 2.2.2 算法缺点此算法考虑到了数据空间上不同的密度分布差异对聚类结果造成的影响，然而，在某些情况下，并不是所有的局部数据空间相异性都是非常大的，因为在某些情况下统计得到的数据对象是现实世界中性质相似的实体，诸如个人信息，同一类商品销售的情况，某企业各年度的财政情况等等。这些类型的数据空间的密度也可能呈现一种“不强烈” 的密度差异现象（如图3 ）。图 3 数据密度分布差异“不强烈” 的数据空间图 3 所示的数据空间中，仔细观察可以发现 c1,c2,c3,可以发现这 3 个区域之间的密度差异并不像图 1 中那样大，而是密度分布逐渐减小，即 c3c2c1 。这就是说，这是几个密度差异不大的区域。