- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(主成分分析的理论和应用
主成分分析的理论和应用
1主成分分析及主成分回归的基本思想
主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快的提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取过程,直到所提取的信息与原指标相差不多时为止。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。主成分回归是在主成分分析法的基础上,由个自变量选出前个主成分,他们是互不相关的;在保持因变量不变,用这个主成分作为自变量作回归;最后把所得的结果作变量代换,转化成原来因变量与自变量的关系。
2数学模型与几何解释
主成分分析的数学模型是,设个变量构成维随机向量为。对作正交变换,令,其中为正交阵,要求的各分量是不相关的,并且的第一个方差是最大的,第二个分量的方差次之,……。为了保持信息不丢失,的各分量方差与的各分量方差和相等。其数学推导为:
设为一个维随机向量,并假定存在二阶矩,其均值向量与协方差分别记为
考虑如下的线性变换
……
用矩阵表示为
其中,;。
满足如下条件:
每个主成分的系数平方和为1。即。
主成分之间相互独立,即无重叠信息。即
主成分的方差依次递减,重要性依次递减,即
2.3 主成分分析的性质及推导
第一主成份的推导:
设X的协方差阵为
由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵使得其中为的特征根,不妨假设。而恰好是由特征根相对应的特征向量所组成的正交阵。
设有维正交向量
=
当且仅当时,即 时,有最大的方差。因为
。
如果第一主成分表达的信息不够,则须找第二主成分。
(2)第二主成分:
因为第一,第二主成分线性无关所以有条件,寻找第二主成分。,因为所以。则对维向量有
。
所以取线性变换,则方差次大。依次类推
矩阵形式为 。
2.3.2 主成份性质:
性质1 主成分的协方差矩阵是对角阵。
性质2 主成分的总方差等于原是变量的总方差。
性质3 主成分与原是变量的相关系数为并称之为因子负荷量。
性质4 ,()。
样本主成分性质:
1、第个主成分的系数向量是第个特征根所对应的标准化特征向量。
2、第个主成分的方差为第个特征根,且任意两个主成分都是不相关的,也就是的样本协方差矩阵是对角矩阵
3、样本主成分的总方差等于原变量样本的总方差,为
4、第个样本主成分与第个变量样本之间的相关系数为:
(因子载荷量)。
2.4主成分的方差贡献率
主成分分析把个原始变量的总方差分解成了个相互独立的变量的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称为第k个主成分的贡献率。第一主成分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。若只取m个主成分,则称为主成分的累计贡献率,累计贡献率表明综合的能力。通常使得累计贡献率达到一个较高的百分数(如85%以上)。
2.5主成分分析的计算步骤
(1)由观测数据计算, 及
(2)由协方差矩阵得到特征值,及各个主成分的方差贡献、贡献率和累计贡献率,并根据累计贡献率确定主成分保留的个数。
(3)写出m个基本方程
式中,
利用施密特正交化方法,对每一个求他所对应的基本方程组的解,,然后令
,
从而得到用所表示的主成分,或将代入后得到用所表示的主成分。
(4)将的观测值带入主成分的表达式中计算各个主成分的值。
(5)计算原指标与主成分的相关系数即因子载荷,解释主成分的意义。
表1-1是我国16个地区农民在某年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试对调查资料中的16个地区的农民生活水平进行主成分分析,并利用前两个主成分对16个地区的农民生活水平进行分类
表1-1 16个地区的农民生活水平的调查数据 (单位:元)
地区 食品
() 衣着
() 燃料
() 住房
() 生活用品及其它
() 文化生活服务
() 北京 190.33 43.77 9.73 60.54 49.01 9.04 天津 135.20 36.40 10.47 44.16 36
文档评论(0)