一种基于网格密度自适应聚类分析算法.docVIP

下载本文档

3
0
约2.97千字
约 7页
2018-08-13 发布于福建
举报
版权申诉

一种基于网格密度自适应聚类分析算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于网格密度自适应聚类分析算法

一种基于网格密度的自适应聚类分析算法　　摘要：在结合基于密度和基于网格的聚类算法优点的基础上，提出一种新的聚类算法。该算法能够在海量、高纬数据下发现任意形状的聚类并对噪声数据不敏感，具有较低的时间和空间复杂性及较高的识别率。通过实验对该算法进行了性能比较和测试，显示了它在各方面的优越性。?? 　　关键词：聚类；密度；网格；连通性　　中图分类号：TP311.13文献标志码：A 　　文章编号：1001－3695(2007)08－0056－02 　　　　聚类分析[1]是数据挖掘研究领域中一个非常活跃的研究课题，已被广泛应用于许多领域。聚类能够在潜在的数据中发现令人感兴趣的数据分布模式。它将数据对象的集合分组为多个类或簇；同一个簇中的对象彼此相似，而与其他簇中的对象相异。通过聚类，能够识别出稀疏的或稠密的区域，从而发现全局分布模式以及数据属性之间有趣的相互关系。　　对于大规模、高维数据库来说，其数据空间中数据的分布是不均匀的，已有的聚类算法大多不能有效地处理海量、高维数据。因此，本文结合密度算法和网格算法各自的优点提出了一种新算法。该算法将数据空间划分成固定大小的网格单元，根据网格密度的相似性及网格的连通性进行快速有效的聚类；同时该算法也适合于空间区域查询，在增加或删除数据时只需要考虑这个增加或删除的数据所影响到的相应网格，并根据该网格与相邻网格的关系来进行聚类，具有良好的伸缩性。?? 　　　　1相关研究 ?? 　　　　1．1基于密度的算法?? 　　M. Ester和M. Ankerst等人提出了基于密度的聚类算法[2，3]，该算法将具有足够高密度的区域划分为簇，并可以在带有噪声的空间数据库中发现任意形状的聚类。该算法采用一个密度阈值来控制簇的增长，但是这个参数值的设置需由用户来决定，设置的细微不同可能导致差别很大的聚类结果。真实的高纬数据集合经常分布不均，全局密度参数不能反映出其内在的聚类结构。?? 　　1．2基于网格的算法?? 　　A. Rakesh等人提出了基于网格的聚类算法[4]，它对于大型数据库中的高纬数据的聚类非常有效。该算法采用一个统一的网格大小来划分问题空间，每个网格保存了落在其内部的数据统计信息，然后在网格上进行聚类操作。由于网格的数量远小于数据点的数量，其运行时间很快。网格的大小决定了聚类效果，精细的网格可能导致网格数量的急剧增加，有时甚至超过了数据点的数量，这将导致计算时间的增加；粗糙的网格导致了聚类质量的下降，有时甚至不能找出不同的聚类。?? 　　　　2基于网格密度的自适应聚类算法?? 　　　　通过前面的分析可知，基于密度的算法能够较好地发现任意形状的聚类结果，而基于网格的算法则能够较好地发现最高纬的子空间。综合这两种聚类算法的优点提出了一种新的聚类算法。该算法不需要用户指定密度阈值，具有良好的自适应性。算法也适合于进行动态聚类，当增加或删除数据时，算法不用重新聚类，只需要考虑这个增加或删除的数据所影响到的那部分网格单元并进行处理即可。?? 　　　　定义8类。根据连通性，网格单元所能达到的最大单元集合称为一个类。?? 　　2．2 算法实现?? 　　由于网格单元在本算法中起着关键性作用，先说明一下其数据结构。每个网格单元包含四个方面的信息：该网格单元在??n??维空间中的位置、网格单元的密度、落入该网格单元中的点集、参考点的坐标。为简单起见，以二维空间为例来说明一下网格单元的存储信息，如图3所示。?? 　　　　本算法分为以下三个步骤：?? 　　a)将??n维空间数据对象划分成N??n个网格单元，N为每一纬上划分的区间数；然后统计落入每个单元中点的个数并得出相应的参考点。?? 　　b)将这些网格单元按密度降序排列，以最大密度的单元为中心，分别向四个方向展开。设中心单元的密度为m，那么密度在[m/2，m??]范围内的所有连通单元都可以划为一类；接着对其边界单元进行分析处理。如果其属于该类，则去除边界噪声；如果不属于该类，就忽略掉。对于剩下的网格单元，也依照这个方法进行下一个聚类，直到所有网格单元都处理完为止。这一步骤的实现伪代码如下：?? 　　　　3实验结果及分析?? 　　　　4结束语?? 　　　　本文提出的算法是一种基于空间单元网格密度的聚类算法。该算法只需对数据集进行一次扫描，得到每个网格单元的信息；再通过对这些网格单元进行处理得到最终的聚类结果。由于生成的网格单元数远小于数据点数，算法的时间复杂度是线性的，效率很高。试验结果证明该方法能够准确有效地完成聚类任务,可应用于图像分析、空间数据聚类、商业数据聚类等多个领域的数据挖掘。?? 　　　　参考文献：?? 　　［1］韩家炜,坎伯.数据挖掘:概念与技术[M]