- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
主成分分析法
一、主成分分析(principalcomponentsanalysis)也称为主分量分析,是由Holtelling于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。
二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp,它们都是相关的,一时难以综合。这时就需要借助主成分分析(principalcomponentanalysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。
任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。
如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。
例1、考察对象股票业绩(这里单个股票为观察个体)。
确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。
因此对单个股票来说,用11个随机变量综合刻化。但这些因素过多,各因素区别不明显,有交叉反映。通过主成分分析,可降为少数几个综合指标加以刻化。
考察20支不同的股票。从数学角度看,每种影响因素是随机变量(Xi),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20×11的原始数据阵X20×11(略)。
三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?1、主成分的一般定义
设有随机变量X1,X2,…,Xp,其样本均数记为X1,X2,…,Xp,样本标准差记为S1,S2,…,Sp。首先作标准化变换
X ?X
x ?
S
我们有如下的定义:
11(1)若Y1=a11x1+a12x2+…+a1pxp,a2
11
a2
12
???a2
1p
?1,且使Var(Y1)
最大,则称Y1为第一主成分;
21(2)若Y2=a21x1+a22x2+…+a2pxp,a2
21
a2
22
???a2
2p
?1,(a21,a22,…,
a2p)垂直于(a11,a12,…,a1p),且使Var(Y2)最大,则称Y2为第二主成分;
类似地,可有第三、四、五…主成分,至多有p个。
2、主成分的性质:Y1,Y2,…,Yp具有如下几个性质
主成分间互不相关,即对任意i和j,Yi和Yj的相关系数Corr(Yi,Yj)=0 i?j
组合系数(ai1,ai2,…,aip)构成的向量为单位向量,
a2?a2 ? ?a2 ?1
i1 i2 ip
各主成分的方差是依次递减的,即Var(Y1)≥Var(Y2)≥…≥Var(Yp)
总方差不增不减,即
Var(Y1)+Var(Y2)+…+Var(Yp)
=Var(x1)+Var(x2)+…+Var(xp)
?iVar(Y
?
i
Var(Y)
i
主成分和原变量的相关系数Corr(Yi,xj)=aij =aij
令X1,X2,…,Xp的相关矩阵为R, (ai1,ai2,…,aip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值?i就是第i主成分的方差,即
Var(Yi)=?i
其中?i为相关矩阵R的第i个特征值(eigenvalue)
?1≥?2≥…≥?p≥0
3、主成分的数目的选取
前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,Y1,Y2等前几个综合变量的方差较大,而Yp,Yp-1等后几个综合变量的方差较小,严格说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。
保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比(一般为80%)便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。
四、主成分分析的一般步骤
1、设观察个体的变量指标为x1,x2,…,xp,它们的综合指标——主成分为z1,z2,…,zm(m≤p),则
x ?12 2l1p pxx ?
x ?
12 2
l
1p p
x
x ?
m2 2
l x
mp p
? 1 11
您可能关注的文档
- 重大危险源临界量.docx
- 重大危险源危险物质安全周知牌.docx
- 重大危险源验收记录表个新.docx
- 重大项目投融资洽谈会策划方案.docx
- 重点初中英语教师个人评优总结归纳.docx
- 重点区域综合环境整治工程施工组织设计.docx
- 主题班会餐桌上的礼仪.docx
- 重度残疾儿童送教教案.docx
- 重绘高清2019年高考地理全国卷II试题.docx
- 重介洗煤工艺简介.docx
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)