- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析方法 ——基本原理和应用 引言 用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。我们希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 简介 主成分分析(Principal Components Analysis)也称主分量分析,由霍特林(Hotelling)于1933年首先提出。它利用降维的思想,在损失很少信息的前提下把多个指标转换为几个指标的多元统计方法。 PCA设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 基本思想 将原来众多具有一定相关性的P个指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。 特点: 主成分数少于变量的个数 主成分能够反应原变量的绝大部分信息 主成分之间互不相关 主成分具有命名解释性 注意: 变量的方差较小,则其传递的信息量较少;所以应该用方差较大的变量来反映较多的信息量。 主成分之间是在与其他主成分不相关的的前提下方差最大,一般有几个变量就有几个主成分,但只有前几个主成分才能涵盖所有变量的大部分信息。 主成分的选择有两种基本方法:1、选择方差大于1的那些,2、累计百分比达到要求的那些主成分。 主成分的意义很难解释,应该转向因子分析。 因子分析是主成分分析的扩展和推广,它通过对原始变量的相关系数矩阵的内部结构的研究,到处能控制所有变量的少数几个不可观测的综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。 应用范围 医学、心理学、经济学等科学领域以及社会化生产中得到广泛的应用。 相关概念 因子载荷矩阵Component Matrix:指每一个载荷量表示主成分与对应变量的相关系数。 特征值(特征根)Initial Eigenvalue:是每个主成分的方差,它的大小表示了对应主成分能够描述原来所有信息的多少(更多时候用方差贡献率来反映)。 步骤 进行主成分分析主要步骤如下: 1. 指标数据标准化(SPSS软件自动行); 2. 指标之间的相关性判定; 3. 确定主成分个数m; 4. 主成分Fi表达式; 5. 主成分Fi命名; 主成分分析的基本原理 将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。 以两个指标为例,信息总量以总方差表示: 其中y1、y2分别都是x1、x2的线性组合,并且信息尽可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1来分析问题,起到了降维的作用。 主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析事物的一种方法。 几何解释 旋转变换的目的是为了使得n个样本点在y1轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量y2也损失不多的信息。 y1与y2除起了浓缩作用外,还具有不相关性。 y1称为第一主成分,y2称为第二主成分。 二、主成分分析的计算步骤 (一)计算相关系数矩阵 rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为 案例:基础数据——某生态系统评价指标以及相关数值 导入数据:(1)定义variable (2)粘贴数据 (3)数据标准化处理:调用如下菜单 选中保存标准数据 系统自动生成Z开头的标准数据 三、开展分析:(1)调用菜单 (2)选择变量及设定 三、相关分析结果
您可能关注的文档
- 10盲孔零件的加工—车削直孔和台阶孔要点.ppt
- 10年淘宝类目成交数据@淘宝商学院要点.ppt
- 10年淘宝类目成交数据要点.ppt
- 10社体专业--健身路径(考查题)要点.ppt
- 10十章长期资产要点.ppt
- 10食工基因工程的基本技术2要点.ppt
- 10网络应用心理学要点.ppt
- 10问卷调查4要点.ppt
- 10下金管(双)4要点.ppt
- 10相似原理与因次要点.ppt
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
文档评论(0)