空间聚类分析概念与算法.docVIP

下载本文档

27
0
约5.08千字
约 5页
2017-09-06 发布于重庆
举报
版权申诉

空间聚类分析概念与算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

空间聚类分析概念与算法

空间聚类概念空间聚类作为聚类分析的一个研究方向，是指将空间数据集中的对象分成由相似对象组成的类。同类中的对象间具有较高的相似度，而不同类中的对象间差异较大。作为一种无监督的学习方法，空间聚类不需要任何先验知识，比如预先定义的类或带类的标号等。由于空间聚类方法能根据空间对象的属性对空间对象进行分类划分，其已经被广泛应用在城市规划、环境监测、地震预报等领域，发挥着较大的作用。同时，空间聚类也一直都是空间数据挖掘研究领域中的一个重要研究分支。目前，己有许多文献资料提出了针对不同数据类型的多种空间聚类算法，一些著名的软件，如WEAK、SPSS、SAS等软件中已经集成了各种聚类分析软件包。 1 空间数据的复杂性空间聚类分析的对象是空间数据。由于空间数据具有空间实体的位置、大小、形状、方位及几何拓扑关系等信息，使得空间数据的存储结构和表现形式比传统事务型数据更为复杂，空间数据的复杂特性表现： (1)空间属性间的非线性关系。由于空问数据中蕴含着复杂的拓扑关系，因此，空间属性间呈现出一种非线性关系。这种非线性关系不仅是空间数据挖掘中需要进一步研究的问题，也是空问聚类所面临的难点之一。 (2)空间数据的尺度特征。空间数据的尺度特征足指在不同的层次上，空间数据所表现出来的特征和规律都不尽相同。虽然在空间信息的概化和细化过程中可以利用此特征发现整体和局部的不同特点，但对空间聚类任务来说，实际上是增加了空间聚类的难度。 (3) 间信息的模糊性。空间信息的模糊性足指各种类型的窄问信息中，包含大量的模糊信息，如空问位置、间关系的模糊性，这种特性最终会导致空间聚类结果的不确定性。 (4)空间数据的高维度。空问数据的高维度性是指空间数据的属性(包括空间属性和非空间属性)个数迅速增加，比如在遥感领域，获取的空间数据的维度已经快速增加到几十甚至上百个，这会给空间聚类的研究增加很大的困难。 2 空间聚类算法目前，研究人员已经对空间聚类问题进行了较为深入的研究，提出了多种算法。根据空间聚类采用的不同思想，空间聚类算法主要可归纳为以下几种：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及其它形式的聚类算法，如图l所示。 (1)基于划分的聚类基于划分的聚类方法是最早出现并被经常使用的经典聚类算法。其基本思想是：在给定的数据集随机抽取n个元组作为n个聚类的初始中心点，然后通过不断计算其它数据与这几个中心点的距离(比如欧几里得距离)，将每个元组划分到其距离最近的分组中，从而完成聚类的划分。由于基于划分的聚类方法比较容易理解，且易实现，目前其已被广泛的弓l入到空间聚类中，用于空间数据的分类。其中最为常用的几种算法是：k一平均(k-means)算法、kl中心点(k—medoids)算法和EM(expectation maximization)算法。k一平均算法 ’使用每个聚类中所有对象的平均值作为该聚类的中心；k一中心点算法 I贝0选用簇中位置最中心的对象作为聚类中心；而EM算法“’则采用一个平均概率分布和一个d×d协方差矩阵来表示一个聚类。除上述3种算法外，也出现了众多的基于上述算法的变异算法，如基于选择的方法(CLARA)、基于随机搜索的方法(cLARANs)等。 (2)基于层次的聚类基于层次的聚类方法就是将数据对象组成一棵聚类的树。根据层次的分解方向，分为凝聚法和分裂法。凝聚法最初假定数据集中的每个对象都为一个单独的类，然后通过不断合并相近的对象，直到满足条件为止；分裂法同凝聚法的分解方向相反，其开始假设所有的对象都在一个类中，之后不断进行分裂，直到满足条件为止。由于一个类一旦分裂或凝聚就不能撤消，因此基于层次的算法的灵活性较差，故很少有纯粹的层次算法，层次方法往往和其它方法相结合进行聚类。代表性算法有：CURE算法、CHAMELEON算法。CURE(clustering using representatives)算法是一种新颖的层次算法，它采取随机取样和划分相结合的方法：一个随机样本首先被划分，每个划分被局部聚类，最后把每个划分中产生的聚类结果用层次聚类的方法进行聚类。较好的解决了偏好球形和相似大小的问题，在处理孤立点时也更加健壮。CHAMELEON(hierarchical clustering using dynamic modeling)算法的主要思想是首先使用图划分算法将数据对象聚类为大量相对较小的子类，其次使用凝聚的层次聚类算法反复地合并子类来找到真正的结果类。CHAMELEON算法是在CURE等算法的基础上改进而来，能够有效的解决CURE等算法的问题。 (3)基于密度的聚类基于密度的聚类算法主要特点在于其使用区域密度作为划分聚类的依据，其认为只要数据空间区域的密度超过了预先定义的阀值