- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于GIS的空聚类算法研究
基于GIS的空间聚类算法研究
厍向阳1 薛惠锋1 李继军1 彭文祥2
1 西北工业大学自动化学院,西安,710072
2 上海交通大学图像处理与模式识别研究所,上海,200030
摘?要:面对目前的聚类方法的局限性和空间聚类的特殊性,从基于目标函数聚类的概念出发,以GIS的空间数据管理和空间分析为技术支持,探讨了空间样本间直接可达距离、间接可达距离和可达成本的计算方法。随机选择k个样本作为聚类中心点,以空间样本到各聚类中心点的可达距离为样本划分依据,以空间样本到其聚类中心点的可达成本的总和为聚类目标函数,引入遗传算法,提出一种基于GIS的空间聚类算法。最后,通过实例进行了算法测试。
关 键 词:数据挖掘;聚类算法;地理信息系统 GIS ;遗传算法;
中图分类号:TP393.3 文献标识码[1]。这些聚类方法隐含两个假设:①样本间是可以直达的,一般采用样本间的直线距离来衡量样本间的相似性,忽略了障碍物的约束条件;②所有样本是等权的,也就是所有样本的重要性、代表性是相同的。然而空间数据并不具备这样的假设条件,假如要在一个城市为给定数目的自动提款机(即ATM)选址,可以对城市所有的居民点按照空间位置特征进行聚类,各个簇的中心点即可作为自动提款机位置。在这一聚类过程中,由于城市中的河流、湖泊、高山等障碍物的约束作用,各居民点并非沿着直线,而是沿着一定的道路或网络到达到簇的中心点。各居民点由于总人口不同,它在聚类过程中的重要性是不同的。显然对于空间数据按照目前的聚类方法进行聚类是不符合实际或者是对实际的一种扭曲。文献[2]最早界定了在障碍物约束下的聚类问题 Clustering with Obstructed Distance, COD ,并且提出了COD-CLEARNS算法。COD-CLEARNS算法核心思想:在顾及障碍物约束的条件下计算任意两样本点间的最近距离,将采样技术和PAM相结合来,通过迭代的方法来完成在障碍物约束下的聚类问题。文献[3]以基于密度的算法(DBSCAN)为基础,用多边形表示各种形状、大小的障碍物,并对多边形进行了约简,提出了DBClU0C Density-Based Clustering with Obstacles Constraints 算法。这些算法尽管解决了在障碍物约束下的聚类问题,但存在如下缺陷:①在为数不多的假定障碍物约束下进行空间聚类;②没有考虑空间样本的权重;③相邻空间样本按照直线距离来计算样本间的相似性。这些缺陷使得空间聚类结果与实际仍然存在较大的差距。在现实生活中,人们总是通过修路、架桥、开凿隧道和开通水运或者航线等手段来克服障碍物约束,而人流、物流、信息流总是沿着一定的路线(道路、航线和线路等)流动。空间数据除具有空间属性外,还具有非空间属性及其空间关系属性,具有复杂的数据结构。地理信息系统 GIS 是空间数据采集、管理、分析、建模和可视化的工具[4]。空间数据管理、空间分析是GIS特有的功能。将GIS与聚类算法相结合,它能为聚类算法提供必要的空间数据管理和空间分析的技术支持,使得空间聚类更加符合实际情况。基于以上分析,面对目前的聚类方法的局限性和空间聚类的特殊性,从基于目标函数聚类的概念出发,以GIS的空间数据管理和空间分析为技术支持,探讨了空间样本间直接可达距离、间接可达距离和可达成本的计算方法。随机选择k个样本作为聚类中心点,以空间样本距各聚类中心点的可达距离为样本划分依据,以各空间样本到其聚类中心点的可达成本总和为聚类目标函数,引入遗传算法,提出一种基于GIS的空间聚类算法。最后,通过实例进行了算法测试。
空间数据聚类的基础
基于目标函数的聚类模型
设为待聚类样本的全体(称为论域),为观测样本的特征矢量或模式矢量,对应特征空间中的一个点,为特征矢量的第维特征取值。
设为聚类数,为样本数,聚类中心点集,为硬划分矩阵。若按照最近距离进行样本划分,则样本硬划分矩阵计算如下:
(1)式中表示样本与中心点之间的欧氏距离。
若以类内平方误差和(WGSS)最小化为聚类目标函数,则聚类的目标函数表示为:
聚类就是通过分析论域中的个样本所对应模式矢量间的相似性,按照样本间的亲疏关系,在满足(2)式的前提下,将划分成个子集(也称为族),并满足如下条件:
基于GIS的空间聚类样本表达
空间待聚类样本可以抽象为空间上的点和点间的弧段,如图1(a)所示。空间上的点除了具有空间属性外,还具有非空间属性及其空间关系属性(拓扑关系、距离关系和方位关系)。由于空间上的点并非假想的均质平原上的点,而是实际地理空间上的点,必然受到一些障碍物的约束,并通过特定的网络来连接。地理信息系统作为管理和分析空间数据的工具,它按照主题图方法来描述空间对象。对于待聚类的空间样本,可用点、线两个主体图来描述。例如:
文档评论(0)