探索性数据研究(00002).pdfVIP

  • 10
  • 0
  • 约1.33万字
  • 约 16页
  • 2019-10-14 发布于江苏
  • 举报
探索性数据分析 探索性数据分析是利用 ArcGIS 提供的一系列图形工具和适用于数据的插值方法,确 定插值统计数据属性、探测数据分布、全局和局部异常值(过大值或过小值)、寻求全局的 变化趋势、研究空间自相关和理解多种数据集之间相关性。探索性空间数据分析对于深入了 解数据,认识研究对象,从而对与其数据相关的问题做出更好的决策。 一 数据分析工具 1. 刷光(Brushing )与链接(Linking ) 刷光指在 ArcMap 数据视图或某个 ESDA 工具中选取对象,被选择的对象高亮度显示。 链接指在 ArcMap 数据视图或某个 ESDA 工具中的选取对象操作。在所有视图中被选取对象 均会执行刷光操作。如在下面章节将要叙述的探索性数据分析过程中,当某些 ESDA 工具 (如直方图、Voronoi 图、QQplot 图以及趋势分析)中执行刷光时,ArcMap 数据视图中相 应的样点均会被高亮度显示。当在半变异/协方差函数云中刷光时,ArcMap 数据视图中相应 的样点对及每对之间的连线均被高亮度显示。反之,当样点对在ArcMap 数据视图中被选中, 在半变异/协方差函数云中相应的点也将高亮度显示。 2. 直方图 直方图指对采样数据按一定的分级方案(等间隔分级、标准差分级)进行分级,统计 采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直 方图可以直观地反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群 值。 在 ArcGIS 中,可以方便的提取采样点数据的直方图,基本步骤为: 1)在 ArcMap 中加载地统计数据点图层。 2 )单击 Geostatistical Analyst 模块的下拉箭头选择 Explore Data 并单击 Histogram 。 3 )设置相关参数,生成直方图。 A. Bars :直方图条带个数,也就是分级数。 B. Translation :数据变换方式。None :对原始采样数据的值不作变换,直接生成直方图。 Log :首先对原始数据取对数,再生成直方图。Box-Cox :首先对原始数据进行博克斯- 考克斯变换(也称幂变换),再生成直方图。 C. Layer :当前正在分析的数据图层。 D. Attribute :生成直方图的属性字段。 从图 3.1a 和图 3.1b 的对比分析可看出,该地区 GDP 原始数据并不服从正态分布,经 过对数变换处理,分布具有明显的对数分布特征,并在最右侧有一个明显的离群值。 在直方图右上方的窗口中,显示了一些基本统计信息,包括个数(count )、最小值(min )、 最大值(max )、平均值(mean )、标准差(std. dev. )、峰度(kurtosis )、偏态(skewness )、 1 1/4 分位数(1-st quartile)、中数(median )和3/4 分位数(3-rd quartile ),通过这些信息可以 对数据有个初步的了解。 四分位数(1-st quartile):如果将N 个数值由小至大排列,第 1/4N 个数就是第一个四 分位数,通常以 Q 表示;第 2/4N 个数就是第二个四分位数(Q ),即中位数;第 3/4N 个数 1 2 就是第三个四分位数(Q )。四分位距即为:Q = Q - Q ,它将极端的前 1/4 和后 1/4 去除, 3 3 1 而利用第三个与第一个分位数的差距来表示分散情形,因此避免了极端值的影响。但它需要 将数据由小到大排列,且没有利用全部数据。 峰度(kurtosis ):用于描述数据分布高度的指标,正态分布的峰度等于 3 。如果数据的 峰度大于 3,那么该数据的分布就会比正态分布高耸且狭窄,此时数据比正态分布集中于平 均数附近;反之,如果峰度小于 3,数据的分布就比正态分布平坦且宽阔,此时数据比正态 分布分散。 偏态(skewness ):用于描述数据分布左右对称性的指标,正态分布的偏态等于0 。如 果数据的直方图向右延伸,即大部分的数据集中于左边,则偏态大于 0,称为正偏态或右偏 态

文档评论(0)

1亿VIP精品文档

相关文档