- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析与因子分析;主成分的概念由Karl Pearson在1901年提出
考察多个变量间相关性一种多元统计方法
研究如何通过少数几个主分量来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关
主成分分析的目的:数据的压缩;数据的解释
它常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释;对于存在线性相关的两个自变量,直接进行分析可能由于多重共线性而无法得出正确结论
如何对这两个变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理?
分别用横轴和纵轴表示两个变量,每个观测值就是二维坐标系中的一个点,所有的数据点大致散布成一个椭圆形,那么这个椭圆有一个长轴和一个短轴,我们称之为主轴,主轴之间是相互垂直的;主成分分析的基本思想就是把原始数据构成的椭圆的主轴找出来,再用代表绝大部分信息的那个轴(也就是长轴)作为代替原始变量的新变量。多维变量降维过程类似。只要把原始数据散布的高维椭球的各个主轴找出来,选择最长的几个轴作为新变量,主成分分析就基本完成了
作为椭圆(或椭球)的主轴,它们之间是相互垂直的,在代数上,这些新变量是原始变量的线性组合,叫作主成分(principal component)
原始数据中有几个变量,它们构成的椭球就有几个主轴,也就意味着最终可以找到几个主成分;降维的目的,是选择越少的主成分来代表原先的变量效果越好
根据主成分分析的思想,选择的标准则是要求被选中的主成分所对应的主轴的长度之和能够占所有主轴长度总和的大部分。至于占到多少才足够具有代表性,并没有一个硬性的说法
在实际中,如果数据中包含的变量之间相关性很差,降维也就很难实现,因为不相关的变量显然无法找到一个很好的共同的代表。所以具体选几个主成分,要视实际情况而定
有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定;对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响
根据标准化???的数据矩阵求出协方差混相关阵
求出协方差矩阵的特征根和特征向量
确定主成分,并对各主成分所包含的信息给予适当的解释;主成分分析的操作;;;;特征值和方差贡献表;;;碎石图;旋转前的因子载荷矩阵;因子得分系数矩阵;;;因子分析和主成分分析有很多相似之处,它们的目的是一致的,都是要将具有一定关联的多个变量进行高度概括,寻找合适的少数变量来代表原先的所有变量。尤其在计算机上实现时,两种方法所要耗费的时间并没有太大差异,除了可能有一两个选项不同之外,它们的输出结果所包含的内容十分类似。因此,人们往往对二者不加区分
实质上,主成分分析可以看作是因子分析的一个特例,因子分析是主成分分析的推广和发展,二者最直观的区别就在于变量和主成分/因子个数的一致性上
主成分分析的基本思想是要寻找高维椭球的所有主轴,因此,原始数据包含了多少个变量,就有多少个主成分,人们对于主成分的选择是依据最终的分析结果来确定的。而因子分析则需要事先确定要找几个成分,也就是所谓的因子(Factor),因子个数从一开始可能就远少于原始变量的个数 ;因子分析是由Charles Spearman在1904年提出的,他被称为因子分析之父
因子分析在某种程度上可以被看成是主成分分析的推广和扩展
因子分析对问题的研究更深入,它是将具有错综复杂关系的变量综合为少数的几个因子,以再现原始变量与因子之间的相互关系,探讨多个能够直接测量、并具有一定相关性的实测指标是如何受少数几个独立因子所支配的,同时根据不同因子还可以对变量进行分类
因子分析是多元统计中处理降维的一种统计方法;因变量和因子个数的不一致,使得不仅在数学模型上,而且在实际求解过程中,因子分析和主成分分析都有着一定的区别,计算上因子分析更为复杂
因子分析可能存在的一个优点是:在对主成分和原始变量之间的关系进行描述时,如果主成分的直观意义比较模糊不易解释,主成分分析没有更好的改进方法;因子分析则额外提供了“因子旋转(factor rotation)”这样一个步骤,可以使分析结果尽可能达到易于解释且更为合理的目的;Principal components(主成分法):这是默认选项(多数情况下不用更改)。通过主成分分析的思想提取公因子,它假设变量是因子的线性组合
Unweight Least Square(不加权最小平方法):该方法使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小
Generalized Least Square(加权最小平方法):用变量值进行加权,该方法也是使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小
Maximum Likelihood(最大似然法):该方法不要求数据服从正态分布,在
文档评论(0)