- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GIS的空間聚类算法研究
PAGE
PAGE 1
基于GIS的空间聚类算法研究
厍向阳1 薛惠锋1 李继军1 彭文祥2
1(西北工业大学自动化学院,西安,710072)
2(上海交通大学图像处理与模式识别研究所,上海,200030)
摘基金项目:国家博士后科学基金资助项目(2003034266)作者简介:厍向阳(1968-),男,陕西周至人,西北工业大学博士生,从事数据挖掘、人工智能、复杂系统建模与仿真等方面研究。
基金项目:国家博士后科学基金资助项目(2003034266)
作者简介:厍向阳(1968-),男,陕西周至人,西北工业大学博士生,从事数据挖掘、人工智能、复杂系统建模与仿真等方面研究。 HYPERLINK mailto:xiangyangshe@ E-mail: xiangyangshe@
关 键 词:数据挖掘;聚类算法;地理信息系统(GIS);遗传算法;
中图分类号:TP393.3 文献标识码
引言
聚类分析是数据挖掘和知识发现中一项重要内容,它是将物理或抽象的对象,按照对象间的相似性进行区分和分类的过程。聚类所生成的簇是一组数据对象的集合,在同一簇中的对象之间具有较高的相似度,而不同簇间差别较大。聚类分析已经被广泛地应用到模式识别、数据分析、图像处理、市场研究以及服务设施的选址等领域中。目前的聚类方法有:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等 REF _Re\r \h \* MERGEFORMAT [1]。这些聚类方法隐含两个假设:①样本间是可以直达的,一般采用样本间的直线距离来衡量样本间的相似性,忽略了障碍物的约束条件;②所有样本是等权的,也就是所有样本的重要性、代表性是相同的。然而空间数据并不具备这样的假设条件,假如要在一个城市为给定数目的自动提款机(即ATM)选址,可以对城市所有的居民点按照空间位置特征进行聚类,各个簇的中心点即可作为自动提款机位置。在这一聚类过程中,由于城市中的河流、湖泊、高山等障碍物的约束作用,各居民点并非沿着直线,而是沿着一定的道路或网络到达到簇的中心点。各居民点由于总人口不同,它在聚类过程中的重要性是不同的。显然对于空间数据按照目前的聚类方法进行聚类是不符合实际或者是对实际的一种扭曲。文献 REF _Ref100997752 \r \h [2]最早界定了在障碍物约束下的聚类问题(Clustering with Obstructed Distance, COD),并且提出了COD-CLEARNS算法。COD-CLEARNS算法核心思想:在顾及障碍物约束的条件下计算任意两样本点间的最近距离,将采样技术和PAM相结合来,通过迭代的方法来完成在障碍物约束下的聚类问题。文献 REF _Ref100997768 \r \h [3]以基于密度的算法(DBSCAN)为基础,用多边形表示各种形状、大小的障碍物,并对多边形进行了约简,提出了DBClU0C(Density-Based Clustering with Obstacles Constraints)算法。这些算法尽管解决了在障碍物约束下的聚类问题,但存在如下缺陷:①在为数不多的假定障碍物约束下进行空间聚类;②没有考虑空间样本的权重;③相邻空间样本按照直线距离来计算样本间的相似性。这些缺陷使得空间聚类结果与实际仍然存在较大的差距。在现实生活中,人们总是通过修路、架桥、开凿隧道和开通水运或者航线等手段来克服障碍物约束,而人流、物流、信息流总是沿着一定的路线(道路、航线和线路等)流动。空间数据除具有空间属性外,还具有非空间属性及其空间关系属性,具有复杂的数据结构。地理信息系统(GIS)是空间数据采集、管理、分析、建模和可视化的工具 REF _Ref101137260 \r \h \* MERGEFORMAT [4]。空间数据管理、空间分析是GIS特有的功能。将GIS与聚类算法相结合,它能为聚类算法提供必要的空间数据管理和空间分析的技术支持,使得空间聚类更加符合实际情况。基于以上分析,面对目前的聚类方法的局限性和空间聚类的特殊性,从基于目标函数聚类的概念出发,以GIS的空间数据管理和空间分析为技术支持,探讨了空间样本间直接可达距离、间接可达距离和可达成本的计算方法。随机选择k个样本作为聚类中心点,以空间样本距各聚类中心点的可达距离为样本划分依据,以各空间样本到其聚类中心点的可达成本总和为聚类目标函数,引入遗传算法,提出一种基于GIS的空间聚类算法。最后,通过实例进行了算法测试。
空间数据聚类的基础
基于目标函数的聚类模型
设为待聚类样本的全体(称为论域),为观测样本的特征矢量或模式矢量,对应特征空间中的一个点,为特征矢量的第维特征取值。
设为聚类数,为样本数
您可能关注的文档
最近下载
- 食疗保健膳食制作-全套PPT课件.pptx
- 政府采购项目招标代理机构服务 投标技术方案(技术标).docx VIP
- 火工基本知识与技能船体加工与装配课件.pptx
- 船体火工安全培训课件.pptx VIP
- 【设计】尾矿库施工组织设计方案.docx
- GB51162-2016 重型结构和设备整体提升技术规范.docx VIP
- 2024年江苏高中学业水平合格性考试语文试卷真题(含答案详解).pdf VIP
- 2024年江苏高中学业水平合格性考试英语试卷真题(含答案详解).docx VIP
- 2024-2025学年北京西城区七年级初一(上)期末生物试卷(含答案).pdf
- 2025年3月29日重庆事业单位联考A类《职测》真题及答案.docx VIP
原创力文档


文档评论(0)