- 1、本文档共105页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一节 主成分分析的原理 多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。 主成分分析的基本思想 主成分分析(Principal components analysis),也称主分量分析、主轴分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。 当这些自变量的第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。 一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。 例6.1:斯通关于国民经济的研究 一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入i、总收入变化率?i以及时间t因素做相关分析,得到下表: 主成分分析的数学表达 主成分分析的数学表达 主成分分析的数学表达 主成分分析的数学表达 当一个变量只取一个数据时,这个变量提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。 主成分分析中的信息,就是指主成分Yi的变异性,用方差D(Y)或D(Yi)表示。 主成分分析的数学表达 主成分分析的数学表达 回忆正交矩阵的定义和性质: 主成分分析的数学表达 主成分分析的数学表达 主成分分析的数学表达 第二节 主成分的几何意义及求解 一、主成分的几何意义 根据上一节的分析,主成分分析从代数的角度看,就是求解p个原始变量的一些特殊线性组合(或者,对原始随机向量进行正交变换);从几何上看,这些线性组合就是把原先由X1,X2,……Xp构成的坐标系进行旋转而构成新的坐标系。新的坐标系,使得样本在延着坐标轴方向有最大的离散程度(方差最大)。 主成分分析在二维空间(p=2)中有最为明显的几何意义。假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。 显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。 如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃x1或x2分量不是“降维”的有效办法。 易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它们为原始变量X1和X2的综合变量,n个点在y1轴上的方差达到最大,即在此方向上包含了有关n个样品的最大量信息。 因此,欲将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2为第二主成分。 易见第一主成分的效果与椭圆的形状有很大的关系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2轴上的方差就相对越小,用第一主成分代替所有样品所造成的信息损失也就越小。 如下页图示,考虑两种极端的情形: 一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。造成它的原因是,原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。 另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成分包含有二维空间点的全
您可能关注的文档
- 第2课第二次鸦片战争.ppt
- 第2部分中文数字资源检索与利用.ppt
- 第2讲机件的表达方法.ppt
- 第2部分工程经济分析基本要素.ppt
- 第2部分高考九大高频考点例析.ppt
- 第3--4章消费者行为理论—生产理论—成本与收益.ppt
- 第30课《诗五首》课件(新八下).ppt
- 第3单第1节地壳物质的组成与循环地壳变动与地表形态课件.ppt
- 第3次集体备课:动词的八大时态与语态.ppt
- 第3章-气体与蒸汽的性质-理想气体部分.ppt
- 中考语文复习专题二整本书阅读课件.ppt
- 中考语文复习积累与运用课件.ppt
- 2025年初中学业水平考试模拟试题(二)课件.ppt
- 四川省2015届理科综合试题48套第12套.pdf
- 【课件】战争与和平—美术作品反映战争+课件-2024-2025学年高中美术湘美版(2019)美术鉴赏.pptx
- 【课件】青春牢筑国家安全防线 课件 2024-2025学年高中树立总体国家安全观主题班会.pptx
- 【课件】原始人的创造+课件高中美术湘美版(2019)美术鉴赏.pptx
- 上海证券-美容护理行业周报:流量加快去中心化,强运营头部品牌影响较小 -2024-.pdf
- T_CSEIA 1005—2023_能源工业互联网平台数据治理要求.pdf
- T_CDSA 504.16-2023_急流救援技术培训与考核要求.pdf
最近下载
- 1.1+磁场对通电导线的作用力(安培力)说课课件-2024-2025学年高二下学期物理人教版(2019)选择性必修第二册.pptx
- (新)初中历史中考总复习思维导图汇总.docx VIP
- 《天一阁登科錄中的明代进士户籍分析》.pdf
- 基于Arduino的实验室安防监测系统设计.doc
- 初中历史《中考必备的20张思维导图》.docx VIP
- 超长结构膨胀加强带连续无缝施工方案.doc VIP
- 2024年浙江省杭州市上城区行政服务中心招聘6人历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx
- 麻黄鸡种鸡饲养技术规程.pdf VIP
- 《中文版AutoCAD 2022基础与应用项目教程》全套教学课件.pptx
- 出院患者随访制度和流程.doc
文档评论(0)