- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(主成份分析
第四章 主成份分析(PCA)
主成份分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少、能解释大部分资料中的变异的几个新变量,即所谓主成份,并用以解释资料的综合性指标。由此可见,主成份分析实际上是一种降维方法。
1.基本原理
1.1主成份分析
主成份分析只是一种解决最终问题的“中间过程”,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,使变量之间难以取舍,而且可能因多元线性而无法得出正确结论。主成份分析的目的就是运用线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映母体信息的指标,从而在不丢掉主要信息的前提下,避开了变量之间共线性的问题,便于进一步分析。主成份分析不能被看作是研究的结果,而应继续采用其他多元统计方法以解决实际问题。
在主成份分析中,提取出的每个主成份都是原来多个指标的线性组合,比如有两个原始变量x1和x2,则一共可提取出如下两个主成份:
原则上如果有n个变量,则最多可提取出n个主成份,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前2~3个主成份就已包含了90%以上的信息,其他的可以忽略不计。提取出的主成份只要能包含主要信息即可,不一定要有准确的实际含义。所以对于某一问题同时要考虑几个因素时,并不对这些因素单个处理,而是将它们综合起来处理,用数据的本身来寻找对全部方差有影响力的方向、第二有影响力的方向等,当然希望能够找到一两个方向能解释大部分数据中的变异,从而得到“降低原始数据中的维数”的效果,这就是主成份分析的核心概念。
1.2应用条件
主成份分析与因子分析的用途如下:(1)用于多元回归分析,解决共线性问题。如前所述,利用主成份分析提取出主要信息,然后使用提取出的主成份代替原变量进行分析,就可以避开原变量的共线性问题。(2)多指标综合评价时突出重点进行评价。当针对多种相关指标前提下,需要对于对于指标进行化简,然后用“主成份指标”进行加权评价,可以有效解决“主观权重”问题,并能够突出重点。(3)用于多指标聚类分析。存在相关关系密切的多种指标进行聚类分析时,需要在主成份分析的基础上进一步作出聚类分析,使类别划分更合理,更易得到合理的解释。
使用条件:主成份分析的目的是提取信息,对样本量没有太严格的要求。除了样本量以外,既然要从许多变量中提取“主成份”,有一个默认的前提条件就是各变量间必须有相关性,否则各变量间没有共享信息,就不应当有“公因子”需要提取,自然也谈不上使用该方法。这是主成份分析最为严格的前提要求。具体在该条件的判断上,除了根据专业知识来估计外,还可以使用KMO统计量和Bartlett’s球形检验加以判定。
(1)KMO统计量。该统计量用于研究变量之间的偏相关性,它是比较各变量之间的简单相关和偏相关的大小,取值范围在0~1之间。如果各变量之间存在内在关系,则由于计算偏相关时控制其他因素就会同时控制潜在变量,导致偏相关系数远远小于简单相关系数,此时KMO统计量接近1,做主成份分析的效果最好。一般认为当KMO大于0.90时效果较佳,0.70以上时效果尚可,0.60时效果很差,0.50及以下时不适宜做因子分析。(2)Bartletts球形检验用于检验相关矩阵是否是单位矩阵,即各变量是否各自独立的检验方法。
2.主成份分析原理与模型
2.1相关概念
主成份分析主要概念如下:
(1)因子负荷。即因子分析式中各因子的系数值,用于反映因子和各个变量间的密切程度。当各公因子间不相关时,因子负荷值就等于因子与变量的相关系数。它的绝对值越大,说明该因子对当前变量的影响程度越大。
(2公因子方差比(Communalities)。是指提取公因子后,各变量中信息分别被提取出的比例,或者说原变量的方差中由公因子决定的比例。公因子方差比在0~1之间,取值越大,说明该变量能被因子说明的程度越高,如果各因子间完全独立,则公因子方差比和因子负荷实际上是等价的。
(3)特征值(Eigenvalue)。特征值可以被看成是主成份分析影响力度的指标,代表引入该主成份后可以解释平均多少原始变量的信息。
(4)主成份提取。主成份数量的确定:主成份分析希望用尽可能少的主成份包含原来尽可能多的信息,那么如何确定需要保留的主成份数量?可以遵循以下几点原则。(1)主成份的累积贡献率。一般来说,提取主成份的累积贡献率达到80%~85%以上就比较满意了,可以由此决定需要提取多少个主成份。(1)特征值。特征值在某种程度上可以被看成是表示主成份影响力度大小的指标,如果特征值小于1,说明该主成份的解释力度还不如直接引入一个原变量的平均解释力度大。因此一般可以用特征值大于1作为纳入标
您可能关注的文档
最近下载
- 方剂配伍理论智慧树知到课后章节答案2023年下浙江中医药大学.docx VIP
- 数控编程与仿真实训(第5版)——电子全套PPT教学课件.ppt
- 沪教牛津版英语4A-M3U1-In-our-school:animal-school公开课课件.pptx VIP
- 急性荨麻疹-洞察与解读.pptx
- 融资分红合同协议.docx VIP
- 草莓状血管瘤血管瘤-洞察与解读.pptx
- 皮肤念珠菌病念珠菌病-洞察与解读.pptx
- 荨麻疹型药疹药疹-洞察与解读.pptx
- DB5305T 78-2022保山市牛油果园水肥一体化技术规程.docx VIP
- DB53_T 1089-2022鳄梨品种'哈斯'生产技术规程.docx VIP
文档评论(0)