- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
地理系统要素关系的主成分分析
地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能”,为地理区域类型的划分和制定区域发展战略提供依据。但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题。例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验。例如有30个测试指标,也许10多种指标即可代表。由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节。事实上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的。
本章介绍解决上述问题的数学方法——主成分分析,它是原始变量的线性组合,但较原始变量更集中更典型地表明研究对象的特征。因为主成分析的数学原理比较简单易懂,因此它在地理学研究中应用较为广泛。
7.1主成分分析方法的原理
主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法。设有n个地理区域,每个地理区域测得p个指标,总共有n*p观测数据。若n=100,p=10,则有1000个地理数据,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在p维空间中加以考察,这是比较麻烦的。为了克服这一困难,一个自然的想法是找较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的。综合指标如何选取呢?通常是取原指标的线性组合,使综合指标之间相互独立且代表性最好。
如果原来单项指标记为;它们的综合指标记为。特别当p=2时,原指标是。
设n个散布点大致为一个椭圆型。如图7-1,若在椭圆长轴方向取坐标Z1,在椭圆短轴方向取坐标Z2,这相当于在平面上作一个坐标变换,显然变换后的坐标有下述性质。
图 7-1 主成分分析的几何意义
(1)n个点的坐标的相关几乎为0。
(2)二维平面上n 个点的波动(方差)大部分可以归结为轴上的波动,而轴上的波动是较小的。
于是称是原指标的主成分。如果图7-1的椭圆是相当扁平的,则可考虑方向上的波动,忽视方向的波动,不会犯很大错误。比如,这个椭圆的长轴方向将整个信息反映了75%,那么,仅用来表达还是可以的,这样二维就可以降为一维了,就是的综合指标。显然:
(7-1)
如果取椭圆的短轴作为第二主成分,图上的点对原指标的值记作;对主成分的值记作,则有
(7-2)
所谓所反映的信息,就是在整个平方和中占的比例,这个比例越大越好,即的平方和(方差)越大越好。取什么方向使它的平方和(或方差)达到极大呢?这就是主成分分析首先要解决的问题。
如果有p个指标,将它们综合成个指标,即
(7-3)
系数由下列原则来决定:
(1)与互相无关;
(2)是的一切线性组合中方差最大的;是与不相关的的所有线性组合中方差最大的;…;是与都不相关的的所有线性组合中方差最大的。
这样决定的综合指标分别称做原指标的第一,第二,…,第m主成分。其中在总方差中占的比例最大,其余主成分的方差依次递减。在实际工作中常挑选前几个最大的主成分,这样既减少了指标的数目,又抓住了主要矛盾,简化了指标之间的关系。
从几何上看,找主成分的问题,就是找出p维空间中椭球体的主轴问题,从数学上容易得到它们是的相关矩阵中m个较大特征值所对应的特征向量。
7.2 主成分分析的解法
下面用一个简单的例子来说明主成分分析的解法。
设有一组地理研究样品的两个变量。所测量的数据列于表7-1。图7-2是表7-1数据的散布图。
表7-1中的方差的方差与的协方差(为多元回归分析中的除以自由度)即方差--协方差矩阵为
表7-1 双变量的原始数据
3 2 12 10 4 10 12 11 6 5 13 6 6 8 13 14 6 10 13 15 7 2 13 17 7 13 14 7 8 9 15 13 9 5 17 13 9 8 17 17 9 14 18 19 10 7 20 20 11 12
图7-2 双变量数据散布图
我们可以在同一坐标系统中,用向量来表示方差和协方差,如图7-3。在轴上取,为了表示和协方差的关系,在端点作一条直线平行,使其长度等于协方差值15.6,这样便可得到一点,将此点与坐标原点相连,得到向量I;用类似方法取,并作向量II。
图7-3 方差和协方差的向量表示
根据矩阵的特征值和特征向量的几何解释,我们可以把一个p阶
文档评论(0)