- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ArcGIS应用之基于密度的聚类分析
我们生活在数据大爆炸时代,每时每刻都在产生海量的数据如视频,文本, 图像和博客等。由于数据的类型和大小已经超出了人们传统手工处理的能力围。 聚类,作为一种最常见的无监督学习技术, 可以帮助人们给数据自动打标签,已 经获得了广泛应用。聚类的目的就是把不同的数据点按照它们的相似与相异度分 割成不同的簇(注意:簇就是把数据划分后的子集),确保每个簇中的数据都是 尽可能相似,而不同的簇里的数据尽可能的相异。 从模式识别的角度来讲,聚类 就是在发现数据中潜在的模式,帮助人们进行分组归类以达到更好理解数据的分 布规律。
今天要跟大家分享的这个工具就跟聚类有关,它是 ArcGIS中一个空间模式 识别工具一一基于密度的聚类分析。基于密度的聚类工具的工作原理是检测点集 中的区域以及被空的或稀疏的区域所分隔的区域。 不属于聚类的点将被标记为噪 点。
一、聚类的应用
城市供水网络是一种重要的隐形地下资产。管道破裂和爆裂的聚类可以指明潜在的 问题。使用基于密度的聚类工具,工程师可以找到这些聚类的位置并对供水网络中的高 危区域抢先采取行动。
假设您拥有 NBA球员所有成功的和失败的投篮位置数据。基于密度的聚类可以显 示每名球员成功与失败投篮位置的不同模式。然后可利用此信息告知比赛战术。
假设您正在研究一种特别的害虫传播疾病,并且有一个代表您研究区域家庭的点数 据集,其中有些家庭已经被感染, 有些家庭尚未被感染。 通过使用基于密度的聚类工具, 您可以确定受害家庭的最大聚类,以帮助确定一个区域以开始害虫的处理和消灭。
可对自然灾害或恐怖袭击之后的地理定位推文进行聚类,根据所确定的聚类大小和 位置报告救援和疏散需求。
聚类可以将大规模的客户数据按照客户喜好进行归类,比如下图 1展示了聚类后发
现了 3个簇。
图1聚类的应用举例
二、 功能定义
聚类算法很多,包括基于划分的聚类算法(如: k-mea nS),基于层次的聚 类算法(如:BIRCH),基于密度的聚类算法(如:DBSCAN ),基于网格的 聚类算法(女口: STING)等等。本文将介绍聚类中一种最常用的方法 一一基于密 度的聚类方法(density-based clustering。
这个工具的核心功能是检测点数据集中集聚区域和被空的或稀疏区域所分 隔的区域。这个工具使用了非监督的机器学习聚类算法, 这个算法并不需要预先
针对聚类进行训练,仅根据空间位置和到指定邻域的距离通过最小聚类点数作为 约束自动检测模式。详细的算法原理请参阅后面的原理分析部分。
三、 使用工具步骤
可能大家一听到 非监督机器学习”瞬间就会觉得这是个很难使用的工具, 事实上这个工具恰恰非常简单易用,如图2所示。输入和输出都很明确,也非常 易于理解。
[ ? 1
[ ? 1
■ ?
■
? ? I
图2非监督机器学习的过程
3.1输入参数
设置点图层,在大数据分析工具中,这个点图层的空间参考要投影坐标系的,如果 数据本身不是,那可以通过设置环境变量中的工具处理空间参考为投影坐标系,比 如3857,来实现动态投影;
设置最小点数,这个值可以理解为最少多少个点可以被考虑为一个聚类,分析区如 果点数低于这个值,说明密度低于临界值,过于稀疏,反之,这些点可以组成一个 聚类;
设置搜索半径,这个值用于创建分析邻域,以分析点为中心,这个值为半径,就可 以缓冲一个圆,这个圆就可以用来判断中心点是否属于哪个聚类或是噪点;
设置输出图层名;
选择是否仅分析当前地图围的要素。
3.2分析过程
从输入参数和输出结果来判断,GA工具中的点聚类工具,后面对应的算法 应该是DBSCAN,后面我还会细说这个算法,在这儿先大概描述下工具背后执行 的逻辑:
针对待分析点先按照搜索半径生成缓冲区;
查询缓冲区围覆盖的点;
如果点数 最小点数,就标识中心点属于某个聚类 ID,然后再针对上面搜索到的点
执行buffer创建,根据判断条件标识聚类 ID ;
如果点数 最小点数,就标识为噪点,重新跳回起点,分析下一个点;
按上面的循环迭代后,每个点都会被判断为属于某个聚类,或者是噪点。
3.3输出结果
这个工具的执行,输出结果非常明确,所有点要素会被区分为噪点或者某一 聚类,至于结果输出多少类,完全取决于算法对数据的探索,当然约束条件就是 搜索半径和最小点数。
输出结果图层和输入点层的记录数完全一致
输出结果图层会增加 CLUSTER_ID, COLOR_ID 两个新字段,一个代表分类,一个 代表渲染ID。
宙 |口创色|5 + Add _ Z Edit
O □
Legend
Him」rKid4nfciJn_2Cll17_clkilt*r
忡凸
dunw Color I
Ouster Col or 2
Clustsr Colo
原创力文档


文档评论(0)