- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析法教案
主成分分析法教案
PAGE / NUMPAGES
主成分分析法教案
主成分剖析法
一、主成分剖析 (principal components analysis)也称为主重量剖析,是由 Holtelling 于 1933 年第一提出的。主成分剖析是利用降维的思想,把多指标转变为少量几个综合指标的多元统计剖析方法。
二、应用背景: 对同一个体进行多项察看时,必然波及多个随机变量 X1, X2 , , Xp ,它们都是有关的 , 一时难以综合。这时就需要借助主成分剖析 (principal component analysis)来归纳诸多信息的主要方面。我们希望有一个或几个较好的综合指标来归纳信息, 并且希望综合指标相互独立地各代表某一方面的性质。
任何一个胸怀指标的利害除了靠谱、 真切以外,还一定能充足反应个体间的变异。假如有一项指标, 不一样个体的取值都迥然不一样, 那么该指标不可以用来区分不一样的个体。由这一点来看,一项指标在个体间的变异越大越好。 所以我们把 “变异大”作为“好”的标准来追求综合指标。
例 1、观察对象股票业绩( 这里单个股票为察看个体 )。
(1)确立影响股票业绩主要因素: 主营业务收入(X1 ),主营业务利润(X2 )利润总数(X3 ),净利润( X4),总财产( X5),净财产( X6),净财产利润率( X7),每股权益( X8 ),每股利润( X9 ),每股公积金( X10),速动比率( X11)作为变量。
所以对单个股票来说,用 11 个随机变量综合刻化。但这些因素过多,各因素差别不显然, 有交错反应。 经过主成分剖析, 可降为少量几个综合指标加以刻化。
(2)观察 20 支不一样的股票。从数学角度看,每种影响因素是随机变量 (Xi ),察看一支股票便获得影响该股票的 11 个随机变量取值; 察看 20 支股票,便获得
了 20×11 的原始数据阵 X20×11(略)。
三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?
1、主成分的一般定义
设有随机变量 X1,X2,, , Xp, 其样本均数记为 X1 , X 2 ,, , X p ,样本标准差记为 S1, S2,, , Sp。第一作标准化变换
XX
x
S
我们有以下的定义:
2
2
2
1 ,且使 Var(Y1)
(1)
若 Y1=a11x1+a12x2+ ,
+a1pxp , a11
a12
a1p
最大,则称 Y1 为第一主成分;
(2)
若 Y2=a21x1+a22x2+,+a2pxp, a212
a222
a22
p
1,(a21 ,a22,, ,
a2p) 垂直于 (a11 ,a12,, , a1p) ,且使 Var(Y2) 最大,则称
Y2 为第二主成分;
近似地,可有第三、四、五 , 主成分,至多有 p 个。
2、主成分的性质 :Y1, Y2, , , Yp 拥有以下几个性质
(1) 主成分间互不有关,即对随意 i 和 j ,Yi 和 Yj 的有关系数
Corr(Yi ,Yj)=0 i j
组合系数 (ai1 , ai2 ,, , aip) 组成的向量为单位向量,
ai21 ai22 aip2 1
(3) 各主成分的方差是挨次递减的, 即
Var(Y1) ≥Var(Y2) ≥, ≥ Var(Yp)
总方差不增不减, 即
Var(Y1)+Var(Y 2)+ , +Var( Yp)
=Var(x1)+Var(x2)+ , +Var(xp)
这一性质说明 :主成分是原变量的线性组合, 是对原变量信息的一种改组, 主成分不增添总信息量,也不减少总信息量。
(5)
主成分和原变量的有关系数 Corr(Yi ,xj)=aij
Var (Yi ) =aiji
(6)
令 X1,X2,, , Xp 的有关矩阵为 R, (ai1 ,ai2 ,, , aip) 则是有关矩
阵 R 的第 i 个特点向量 (eigenvector) 。并且,特点值 i 就是第 i 主成分的方差,
即
Var(Yi)= i
此中 i 为有关矩阵 R的第 i 个特点值 (eigenvalue)
1≥ 2≥ , ≥ p≥0
3、主成分的数量的选用
前已指出,设有 p 个随机变量,便有 p 个主成分。因为总方差不增不减, Y1,Y2等前几个综合变量的方差较大 , 而 Yp,Yp-1 等后几个综合变量的方差较小 , 严格说来,只有前几个综合变量才称得上主 ( 要) 成份,后几个综合变量实为“次”
( 要) 成份。实践中老是保存前几个,忽视后几个。
保存多少个主成分取决于保存部分的积累方差在方差总和中所占百分比 ( 即累计贡献率 ) ,它标记着前几个主成分归纳信息之多寡。实践中,大略规定一个
百分比(一般
文档评论(0)