空间数据挖掘中的聚类算法总汇.doc

下载文档 降价啦

4
0
约9.19千字
约 11页
2017-03-16 发布于湖北
举报
版权申诉
保障服务

空间数据挖掘中的聚类算法总汇.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

空间数据挖掘中的聚类算法朱屹, 刘安丰（中南大学，软件学院，湖南长沙，410075）摘要:本文系统综述了文献中发表的大量空间聚类算法，依据这些算法的特点，将它们归纳为两类：划分聚类算法、层次聚类算法。针对划分聚类算法，重点分析了PAM、CLARA和CLARANS算法。针对层次聚类算法，重点综述了凝聚和分解层次聚类，分析了BIRCH、CURE、CHAMELEON算法。比较了这些算法的复杂度，并介绍了相关应用。关键词:聚类算法；聚类分析；数据挖掘；空间数据库引言随着数据挖掘技术的出现，学者们开始采用各种方法从大型数据库的数据中发现知识，同样也利用数据挖掘技术对空间数据进行分析。这种空间数据挖掘的方法很好地弥补了传统空间统计分析的不足，很快受到了学者的重视。空间数据挖掘，也称基于空间数据库的数据挖掘和知识发现(Spatial Data Mining and Knowledge Discovery)，作为数据挖掘的一个新的分支，是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在数据库中的普遍的数据特征[1]。目前大多数空间数据挖掘方法都是基于空间聚类与关联规则发现。空间聚类方法是空间数据挖掘中的主要方法之一,是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域. 聚类算法无需背景知识,能直接从空间数据库中发现有意义的空间聚类结构[2]。在无先验知识的情况下,聚类分析技术是进行数据挖掘时的首选[3]，因而运用空间数据聚类方法来处理海量数据,对于提取大型空间数据库中有用的信息和知识具有十分重要的现实意义。概述目前，针对聚类分析提出了许多算法，这些算法可大致分为两类：划分聚类算法、层次聚类算法。划分聚类算法依据对象相似性来分配对象，如k-means[4]和k-medioid。层次聚类法是一系列连续的合并和分解过程，可以自上向下连续分解，也可以自下向上连续合并。基于格网的聚类算法也可视为层次聚类算法。基于位置的聚类算法依赖局部对象之间的关系来聚类，既可以基于密度，也可以基于随机分布聚类。对于空间数据聚类，则是基于空间数据的特点对聚类算法进行改进, 从而使之适用于空间对象的特性，如DBSCAN 算法[5] 、CLATIN算法[6]、DDSC算法[7]等。划分聚类划分算法大多数是在PAM（Partition Around Medoids）算法、CLARA（Clustering Large Applications）算法和CLARANS（Clustering Large Application based upon Randomized Search） [8]算法的基础之上发展起来的。在数据量较大，计算复杂度较高时，PAM和CLARA算法效率较低。因此为了提高效率，提出了基于随机搜索的CLARANS算法。实验表明CLARANS优于PAM与CLARA。后有学者在CLARANS上进一步发展了新的划分聚类算法，进行了推广，提出了概念聚类的方法。 PAM算法 PAM算法[4]首先在n个对象中随机选取k个对象作为中心点。将余下的n-k个对象(非选择对象)依据与中心点距离或相异程度最小原则划分到上述k个聚类中。即如果是未选择对象，是中心点，当是以为中心点的聚类。表示对象与中心点的相异程度。然后，从非选择对象中选择一个对象与交换，如果交换使得聚类质量提高，则用替换原中心点。 CLARA算法为了减少PAM算法的复杂度，CLARAR算法[8]选择实际数据的一小部分作为数据样本。然后用PAM算法从样本中选择中心点。它的思想是，如果样本是以非常随机的方式选取的，它应当足以代表原来的数据集合。算法的有效性取决于样本的大小CLARA中心点，在抽取的样本中搜索最佳的k个中心点。但是CLARAR算法的缺点是，如果任何取样得到的中心点不属于最佳中心点，算法将不能得到最佳聚类。 CLARANS算法为了提高算法的有效性，Ng和Han[9]提出了CLARANS算法。算法结合了PAM和CLARA算法的特点，它只搜索数据集的子集且并不限制固定的搜索样本。该算法将己知n个对象，发现k个中心点的过程抽象为图的搜索过程。在图中一个结点是k个对象的集合，其中是所选的中心点。图中所有点的集合为：如果两个节点仅有一个对象不同，则称此两节点是“邻居”。每个节点有k(n-k)个邻居。每个节点代表一种聚类。每个节点可以赋予一个开销，这个开销可以表示为聚类中每个对象与它的中心点的区别的和。如果目前的节点已经与最大数目的邻居(maxneighbor)进行了比较且仍然是花销最小，目前的节点就可认为是“局部最优”。在局部最优与目前为止获得的最小开销比较，两者中的最小者设为mincost。CLARANS算法是迭代搜索局