- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章 探索性空间数据分析与可视化 B 2012.ppt
第3章 探索性空间数据分析与可视化;伴随着计算机技术的发展,适用于海量数据环境的数据挖掘、空间数据挖掘方法正在得到大力发展,其中探索性数据分析技术(exploring data analysis,EDA)和数据可视化技术(data visualization)是最基本的数据分析方法。;3.1 关于EDA、ESDA与可视化;EDA技术的特点是对数据来源的总体不作假设,并且假设检验也经常被排除在外。这一技术使用统计图表、图形和统计概括方法对数据的特征进行分析和描述。EDA技术的核心首先是“让数据说话”,在探索的基础上再对数据进行更为复杂的建模分析。因此可将EDA作为数据分析的初级阶段。
ESDA技术是EDA思想在空间数据分析领域的推广。ESDA着重于概括空间数据的性质,探索空间数据中的模式,产生和地理数据相关的假设,并在地图上识别异常数据的分布位置,以发现是否存在热点区域(hot spot)等。;ESDA的要求;3.2 EDA与可视化的基本方法;②图形EDA技术,即可视化的探索性数据分析。
两种类型的EDA本质上是一致的,其目的都是为了揭示数据中的模式、趋势、关系等。;常用的图形方法有:
直方图(histogram)
茎叶图(stem-leaf)
箱线图(box-whisker plot)
散点图(scatter plot)
散点图矩阵(scatter plot matrix)
平行坐标图(parallel coordinate plot)
雷达图(radar plot)等。
;箱线图;中位数(media,简写为M)是从小到大排列的数据列中位于中间位置的数,用公式表示为
;极差(range,简写为R):与中位数对应的描述分散性的统计量。
;分位数(quantile)是一种利用数据的位序描述数据特征的统计量。设p是介于0到1之间的一个数值,有0≤p<1,有n个位序统计量,则p分位数定义为
;
最常用的分位数是p=0.75和p=0.25,记为Q3,Q1,其含义是小于Q3和Q1的数据的个数分别占数据总数的75%和25%,因此它们又分别称为上、下四分位数。
;均值?x和中位数M都是描述数据集中性的统计量,但是前者使用的是数据序列的全部信息,后者只用了少量数据的信息,因此在没有异常数据的情况下,均值比中位数更好地反映了数据的集中性,但这同时也是后者比前者稳健的原因。
综合考虑代表性和稳健性两方面因素,探索性数据分析方法中提出了利用中位数和上、下四分位数3个特征量构造的一个“均值”,称之为三均值?M,定义为
;异常数据和极端数据;图3.2中位数、分位数、异常值、极端值的分布;图中,矩形表示上下四分位数之间的数据分布,中间的横线为中位数的位置,有时中位数的位置用小的方形符号“口”来表示,从矩形的两端各画一条直线到非异常值的最大和最小数值点,这条线称为须线(whisker),在这一点各画一条和须线垂直的短画线表示非异常的最大和最小值的位置。在最大、最小值之外的异常值用“o”表示,极端值则用星号“*”表示。;图3.3 某企业产品在各个销售区域上多年销售的箱线图;表3.1 浦东新区唐镇2000年人口数据
;根据下面的图3.4,可以看出总人口在各个居委会中的分布基本属于正常的范围,而人口密度的分布有极端值出现,大部分区域的人口密度为1000~3 000人/km2,而王港居委会的人口密度达到了6 000余人/km2。;图3.4 总人口和人口密度的箱线图
;需要指出的是:如果在箱线图中选择均值作为中间点,则分散性的范围可根据标准差,或标准误差,或数据的最小-最大值来确定。
;3.2.2 茎叶图和直方图;茎叶图的行数选择;直方图区间宽度选择;3.2.3 散点图矩阵;3.2.4 平行坐标图;平行坐标系的优点是可以在2维空间上考察分析m维变量的相关性,但是为了表示m维数据,所有的变量都以折线的形式画在平行坐标图上,然而对于非常大的数据集,平行坐标图容易引起视觉上的混淆。
平行坐标图重要的作用在于:
①可用于突出显示异常数据;
②根据某一变量选择数据子集;
③与其他可视化技术结合探索数据中的模式。;3.3 ESDA与空间数据可视化;3.3.1 空间数据的地图化表示——主题地图;饼状图和柱状图是为了在地图上表示多变量的分布特征及其空间差异性而设计的表示方式,其中前者适合于表示结构关系,后者着重于表示数量差异。
当变量个数多时,这种表示方式可能会超出人的视觉判断能力,反而不利于信息的表示。;3.3.2 主题地图表示的数据分类问题;确定数据分类数量的基本技术是Sturges规则:分类的数量x介于2的n次方与2的n+1次方。
自然分割的分类方法。基本思想是最小化数据集内部的变异、最大化类型间的变异。通常
您可能关注的文档
最近下载
- 人教版高中物理-有答案-人教版高中物理-选修3-1-18-电容器的电容-同步练习.docx VIP
- 胸心外科动脉导管未闭病案分析.docx VIP
- 2025年RCEP关税调整对国内制造业影响深度分析报告.docx VIP
- 上海PPAP培训课件.ppt VIP
- 2025华南地区经济情况特别报告.pdf VIP
- 第十二章 全等三角形知识归纳与题型突破(12类题型清单)(解析版).docx VIP
- Unit4 第2课时Speed up Fuel up(教学设计)-三年级英语下册(外研版三起2024).pdf VIP
- 北京德佛斯DFSFS3000变频器说明书.docx VIP
- 2024-2025学年人教版英语八年级上册阅读理解解题技巧讲义.docx VIP
- 带电粒子在电场中的运动.ppt VIP
文档评论(0)