高维数据可视化在统计研究中作用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高维数据可视化在统计研究中作用

高维数据可视化在统计研究中作用■ 运用可视化方法的必要性 在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和运行状态的指标数据信息。例如,要衡量一个地区的经济发展,需要观测的指标有:地区生产总值、劳动生产率、税收、人均GDP等;要衡量一个城市的综合发展水平也需要观测很多指标,如:工业总产值、非农业人口数、人均住房面积、工资总额、城乡居民储蓄率等等,在科研、生产、日常生活中,受多种指标共同影响和作用的现象是大量存在的,举不胜举。 这类原始数据集合往往由于样本数量巨大,刻画系统特征的指标变量众多,并且带有动态特性,形成规模宏大、复杂难辨的数据海洋。如何分析和认识高维数据集合中的内在规律性,简明扼要地把握系统的本质特征;如何对高维数据集合进行最佳综合,迅速将隐没在其中的重要信息集中提取出来;如何充分发掘数据中的丰富内涵,清晰地展示系统结构,准确地认识系统元素的内在联系,以及直观地描绘系统的运行历程,这些是科学决策和决策支持系统建立的基础,是决策者做出科学决策的根据。 在数据信息的分析过程中,对直观图像的观察是一种重要的分析手段,它可以更好地协助系统分析人员思维与判断,及时发现大规模复杂数据群中的普遍规律与特殊现象,大大提高数据信息的分析效率。在当今的决策支持系统理论与方法的研究中,将抽象空间或高维不可见空间中的信息以及一些更复杂的现象转换成直观的平面图示,这种面思维的工作方式,能够极大地提高决策人员的洞察能力和增加决策者的知识,是实现决策支持系统高效率的最佳途径之一。 ■ 可视化方法改进后的优长 在统计分析过程中,由于分析人员尽可能周到地选取有关指标,建立的指标体系中往往会出现信息重叠的现象。信息重叠的危害表现在:一方面会使传统的最小二乘回归分析失效,另一方面在分类或聚类过程中会过分地夸大某个指标在系统分析中的作用,出现“大数吃小数”现象,以致影响分析的客观性,妨碍决策者的正确判断。 为了解决上述问题,往往对指标系统进行简化处理,有一个特殊情况尤其引起人们的关注:如果能将一个p维指标系统有效地降至二维就可以在平面上描绘每一个样本点,以直接观察样本点或指标之间的相互关系及样本点间的分布特点和结构。所以主成分分析使高维数据点的可见性成为可能。概括地讲,主成分分析是一种对多指标系统进行简化的方法,它能够在保证数据信息损失最小的前提下,对高维数据集合进行降维处理,揭示系统的主要因素。特别是当高维数据降为二维时,可以在平面图上描绘系统指标的相互关系,使高维复杂系统具有可见性,大大提高决策者的洞察能力和分析效率。提取的主成分指标尽管多于三个,但是主成分指标之间几乎不相关,因此可以用雷达图来弥补主成分可视化的不足,主成分分析及雷达图内容多数教材都有详细介绍,在此不予赘述。以提取的主成分指标代替原始指标绘制雷达图,便可将高维数据降维可视化。 下面的内容便是笔者科研项目的结果,从最终的结果来看,这种改进的可视化方法效果明显改善。采用综合评价指标对全国35个中心城市的综合发展水平进行评价,选取了包括两个方面的15个具体指标,分别是非农业人口、 工业总产值、货运总量、批发零售贸易餐饮业网点数、批发零售贸易餐饮业人数、 财政收入、城乡居民年底储蓄余额、职工人数、工资总额、人均居住面积、城市煤气普及率、人均公共绿地面积、人均拥有铺装道路面积、人均公共绿地面积和每万人拥有公共厕所数,分别记为X1,X2,#8943;,X15。其中前9个指标为社会经济指标,后6个指标为城市公共设施水平指标。调用SPSS中因子分析程序,对15个指标的原始数据进行标准化、同趋化处理,最终得到四个主成分指标:F1 ――城市规模及经济发展水平指标, F2――城市基础设施水平指标,F3――煤气公因子,F4――城市公共卫生指标(见下表)。 从下图看出,城市A几乎在各个公因子上的得分都是最大值,A城市对应的雷达图面积在全国城市中也位居前列,因此说明A城市的综合发展水平在全国处于领先地位。B城市虽然在F1、F2、F3上的得分很高,其对应的雷达图面积也较大,但B城市在城市基础建设上的得分较低,因此B城市在城市建设时需要在基础建设方面加强力度。C城市在各公因子上的取值、对应的雷达图面积都处于中等地位,因此两城市在全国属于中等发达城市。为跨入全国发达城市行列,两城市各方面都需加快发展。D城市的四个公因子取值都是35个城市中最小或者接近最小的,其对应的雷达图面积也是最小的,因此可以认为D城市是不发达城市。D城市需在各方面加快发展才能赶上其它城市的发展速度,由于F1(城市规模及经济发展水平公因子)的方差贡献最大,F1是城市发展水平的主要代表方面,因此在经济能力受限条件下,D城市应该集中主要精力加快城市规模及经济方面的发展,从而

您可能关注的文档

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档