- 1、本文档共56页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
题目:主成分分析PCA
;内容;1.前言;PCA;2.问题的提出;6;(2)如何选择几个主成分。
主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。
(3)如何解释主成分所包含的几何意义或经济意义或其它。
;实例1:经济分析;根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。;主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。
;实例2:成绩数据;从本例可能提出的问题;13;14;15;先假定数据只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;
如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的).
;17;18;19;20;
椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。;22;进一步解释PCA;进一步解释PCA(续);正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。
选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。;26;27;28;29;例1:
从一个总体中随机抽取4个样本作三次测量,每一个样本的观测向量为:
;SyntaxC=cov(X)
AlgorithmThealgorithmforcovis
[n,p]=size(X);
X=X-ones(n,1)*mean(X);
Y=X*X/(n-1);
SeeAlso
corrcoef,
mean,std,
var;32;2020/9/16Wednesday;如果我们将xl轴和x2轴先平移,再同时按逆时针方向旋转?角度,得到新坐标轴Fl和F2??Fl和F2是两个新变量。;Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。
F简化了系统结构,抓住了主要矛盾。
;;§3.4PCA的性质;2、若上述矩阵的特征根所对应的单位特征向量为;39;40;PCA常用统计量:
1.特征根λi
2.各成分贡献率
3.前各成分累计贡献率
4.特征向量各成分表达式中标准化原始变量的系数向量,就是各成分的特征向量。
;42;43;44;45;§5PCA的应用;1、品格(用X1表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。
2、能力(用X2表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。
3、资本(用X3表示),指顾客的财务势力和财务状况,表明顾客可能偿还债务的背景。
4、附带的担保品(用X4表示),指借款人以容易出售的资产做抵押。
5、环境条件(用X5表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。;首先并抽取了10家具有可比性的同类企业作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值,如表。;
EigenvaluesoftheCovarianceMatrix
EigenvalueDifferenceProportionCumulative
PRIN1410.506367.2420.8458540.8
文档评论(0)