基于网格梯度多密度聚类算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网格梯度多密度聚类算法

基于网格梯度多密度聚类算法   (重庆邮电大学 中韩合作空间信息系统研究所, 重庆 400065)   ??   摘要:大多数现有的聚类算法都致力于发现任意形状、任意大小的类,但很难有效处理多密度的数据集。提出的算法利用网格聚类速度快的特点,先通过高斯平滑去除噪声,再采用网格梯度的思想找出隐藏在多密度数据集中的簇。算法在人工数据集上进行了实验,结果表明该算法能有效地去除噪声,发现多密度的簇,具有较好的聚类效果。   ?す丶?词:聚类算法; 梯度; 网格; 密度; 相似性   ?ぶ型挤掷嗪牛?TP301.6文献标志码:A   文章编号:1001-?B3695(2008)11-?B3278-?B03   ??   Grid gradient-based multi-density clustering algorithm   ??   XIA Ying, LI Ke-fei, FENG Jiang-fan   ??   (SIKO-GIS Research Center, Chongqing University of Posts Telecommunications, Chongqing 400065, China)   ??   Abstract:At present, most clustering algorithms devote to find the arbitrary shape and different size clusters, but it is difficult to deal with the multi-density data set effectively. This paper proposed the algorithm which used the grid-based character of rapidity. Firstly, it wiped off the noise using the Gaussian smoothing, then found the cluster which hid in multi-density data set. In the experiment, used the artificial data on the algorithm. The result indicates the algorithm can wipe off the noise effectively and find out the multi-density cluster. The clustering result is good.   ??Key words:clustering algorithm; gradient; grid; density; similarity   ?お?   0引言??   聚类是将数据对象分成类或簇的过程,使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异[1]。聚类源于许多研究领域,包括数据挖掘、统计学、生物学和机器学习等。聚类分析是数据挖掘中一种非常重要的技术和方法,是自发、无监督的学习过程。通过聚类能够识别对象空间中稠密和稀疏区域,从而发现全局分布模式和数据属性之间有趣的相关。近几年来,聚类分析已经广泛地成功应用于许多领域,包括市场研究、模式识别、数据分析和图像处理等。??    针对聚类分析,专家们提出了许多算法。这些算法大致可分为划分方法[2]、层次方法[3]、基于密度的方法[4]、基于网格的方法[5]和基于模型的方法[6]。聚类在很多实际应用中都发挥着很重要的作用,不同的应用对聚类处理有不同的要求,一些典型的要求如输入参数的个数及所需的先验知识最小化;能够发现任意形状的簇;能够处理带有噪声的数据;能够发现多密度的簇;能够增量聚类;对输入记录的次序不敏感;能够处理海量数据等。??    在聚类所使用的数据集中,各个类的密集程度往往不尽相同,甚至差别很大。大多数现有的聚类算法都致力于发现任意形状、任意大小的类,但很难有效地处理多密度的数据集。已有能够处理多密度数据集聚类算法有Chameleon[3]、GDCIC[7]、多阶段等密度线算法[8]、SNN[9]等。Chameleon算法可以用来处理多密度的数据集,但当数据集较大时其算法的时间复杂度较高;GDCIC算法采用了局部网格密度置信区间的方法,能够自动识别稠密区域,但是不能很好地处理某些高噪点区域;多阶段等密度线算法采用多阶段的方式,利用等密度线的思想对数据集进行聚类,它的缺点是不能有效地分离出多个类;SNN算法采用了一种共享近邻的思想来定义相似度(对于数据集中每个点,找出距离其最近的k个邻近点,形成一个集合,然后考虑

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档