空間聚类分析.docVIP

下载本文档

57
0
约 14页
2017-01-16 发布于重庆
举报
版权申诉

空間聚类分析.doc

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

空間聚类分析

1 空间聚类的内涵理解 1.1 定义空间聚类作为聚类分析的一个研究方向，是指将空间数据集中的对象分成由相似对象组成的类。同类中的对象间具有较高的相似度，而不同类中的对象间差异较大[3]。作为一种无监督的学习方法，空间聚类不需要任何先验知识。这是聚类的基本思想，因此空间聚类也是要满足这个基本思想。 1.2 对空间数据聚类的要求[2][5][6] ① 可伸缩性；许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好；但是，一个大规模数据库可能包含几百万个对象，在这样的大数据集合样本上进行聚类可能会导致有偏的结果。我们需要具有高度可伸缩性的聚类算法。许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是，一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。 ③ 用于决定输入参数的领域知识最小化；许多聚类算法在聚类分析中要求用户输入一定的参数，例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定，特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担，也使得聚类的质量难以控制。绝大多数现实中的数据库都包含了孤立点，缺失，或者错误的数据。一些聚类算法对于这样的数据敏感，可能导致低质量的聚类结果。一些聚类算法对于输入数据的顺序是敏感的。例如，同一个数据集合，当以不同的顺序交给同一个算法时，可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要的意义。一个数据库或者数据仓库可能包含若干维或者属性。许多聚类算法擅长处理低维的数据，可能只涉及两到三维。人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的，特别是考虑到这样的数据可能分布非常稀疏，而且高度偏斜。空间聚类的主要方法有五大类：划分聚类算法、层次聚类算法、基于密度的方法、基于网格的方法和基于模型的聚类方法。[2][3] 图2-1空间聚类算法分类 2.1 划分聚类算法主要包括：K-means、K-medoids、PAM、CLARA、K-模、K-原型、EM和CLARANS等。基本思想：给定一个包含n个对象或数据的集合，k个子集，(k≤n)，，，典型的算法说明：K-means算法是首先从n个数据对象随机地选择k个对象，，，，，，产生类的大小相差不会很大，对于脏数据很敏感。K-medoids做出了相应的改进，K-medoids不采用聚类中对象的平均值作为参照点，，， 2.2 层次聚类算法层次聚类方法是通过将数据组织为若干组并形成一个相应的树来进行聚类的，分裂聚类算法，，，，，，，，， CURE(clustering using representatives)算法采取随机取样和划分相结合的方法：一个随机样本首先被划分，每个划分被局部聚类，最后把每个划分中产生的聚类结果用层次聚类的方法进行聚类。较好的解决了偏好球形和相似大小的问题，在处理孤立点时也更加健壮。 CHAMELEON(hierarchical clustering using dynamic modeling)算法的主要思想是首先使用图划分算法将数据对象聚类为大量相对较小的子类，其次使用凝聚的层次聚类算法反复地合并子类来找到真正的结果类。CHAMELEON 算法是在CURE 等算法的基础上改进而来，能够有效的解决CURE等算法的问题。 2.3 基于密度的方法绝大多数划分方法基于对象之间的距离进行聚类，，，：(对象或数据点的数目) 超过某个阈值，，，DBSCAN 算法、OPTICS 算法、DENCLUE算法等。 DBSCAN(density based spatial clustering of applications with noise)算法可以有效地发现具有任意形状的类，，，，DBSCAN算法将聚类定义为基于密度可达性最大的密度相连对象的集合。另外不进行任何的预处理而直接对整个数据集进行聚类操作。 OPTICS 算法是一种基于类排序方法。该算法并不明确产生一个聚类， DENCLUE 算法是一个基于一组密度分布函数的聚类算法。该算法主要基于下面的想法： (1) ，，； (2) ； (3) ， 2.4 基于网格法主要思想是将空间区域划分若干个具有层次结构的矩形单元，不同层次的单元对应于不同的分辨率网格，把数据集中的所有数据都映射到不同的单元网格中，算法所有的处理都是以单个单元网格为对象，其处理速度要远比以元组为处理对象的效率要高的多。代表性算法有：STING算法、CLIQUE 算法、WAVE-CLUSTER 算法等。 STING(statistical information grid) 算法首先将空间区域划分为若干矩形单元，这