基于网格梯度多密度聚类算法.docVIP

下载本文档

13
0
约8.7千字
约 17页
2018-08-30 发布于福建
举报
版权申诉

基于网格梯度多密度聚类算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网格梯度多密度聚类算法

基于网格梯度多密度聚类算法　　（重庆邮电大学中韩合作空间信息系统研究所, 重庆 400065）　　?? 　　摘要：大多数现有的聚类算法都致力于发现任意形状、任意大小的类，但很难有效处理多密度的数据集。提出的算法利用网格聚类速度快的特点，先通过高斯平滑去除噪声，再采用网格梯度的思想找出隐藏在多密度数据集中的簇。算法在人工数据集上进行了实验，结果表明该算法能有效地去除噪声，发现多密度的簇，具有较好的聚类效果。　　?す丶?词：聚类算法；梯度；网格；密度；相似性　　?ぶ型挤掷嗪牛?TP301.6文献标志码：A 　　文章编号：1001-?B3695(2008)11-?B3278-?B03 　　?? 　　Grid gradient-based multi-density clustering algorithm 　　?? 　　XIA Ying, LI Ke-fei, FENG Jiang-fan 　　?? 　　(SIKO-GIS Research Center, Chongqing University of Posts Telecommunications, Chongqing 400065, China) 　　?? 　　Abstract:At present, most clustering algorithms devote to find the arbitrary shape and different size clusters, but it is difficult to deal with the multi-density data set effectively. This paper proposed the algorithm which used the grid-based character of rapidity. Firstly, it wiped off the noise using the Gaussian smoothing, then found the cluster which hid in multi-density data set. In the experiment, used the artificial data on the algorithm. The result indicates the algorithm can wipe off the noise effectively and find out the multi-density cluster. The clustering result is good. 　　??Key words：clustering algorithm; gradient; grid; density; similarity 　　?お? 　　0引言?? 　　聚类是将数据对象分成类或簇的过程，使同一个簇中的对象之间具有很高的相似度，而不同簇中的对象高度相异[1]。聚类源于许多研究领域，包括数据挖掘、统计学、生物学和机器学习等。聚类分析是数据挖掘中一种非常重要的技术和方法，是自发、无监督的学习过程。通过聚类能够识别对象空间中稠密和稀疏区域，从而发现全局分布模式和数据属性之间有趣的相关。近几年来，聚类分析已经广泛地成功应用于许多领域，包括市场研究、模式识别、数据分析和图像处理等。?? 　　针对聚类分析，专家们提出了许多算法。这些算法大致可分为划分方法[2]、层次方法[3]、基于密度的方法[4]、基于网格的方法[5]和基于模型的方法[6]。聚类在很多实际应用中都发挥着很重要的作用，不同的应用对聚类处理有不同的要求，一些典型的要求如输入参数的个数及所需的先验知识最小化；能够发现任意形状的簇；能够处理带有噪声的数据；能够发现多密度的簇；能够增量聚类；对输入记录的次序不敏感；能够处理海量数据等。?? 　　在聚类所使用的数据集中，各个类的密集程度往往不尽相同，甚至差别很大。大多数现有的聚类算法都致力于发现任意形状、任意大小的类，但很难有效地处理多密度的数据集。已有能够处理多密度数据集聚类算法有Chameleon[3]、GDCIC[7]、多阶段等密度线算法[8]、SNN[9]等。Chameleon算法可以用来处理多密度的数据集，但当数据集较大时其算法的时间复杂度较高；GDCIC算法采用了局部网格密度置信区间的方法，能够自动识别稠密区域，但是不能很好地处理某些高噪点区域；多阶段等密度线算法采用多阶段的方式，利用等密度线的思想对数据集进行聚类，它的缺点是不能有效地分离出多个类；SNN算法采用了一种共享近邻的思想来定义相似度（对于数据集中每个点，找出距离其最近的k个邻近点，形成一个集合，然后考虑