主成分分析-课件复习课程.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教学课件课件PPT医学培训课件教育资源教材讲义

罗树生;;;;;;; 根据旋转变换的公式:; 旋转变换的目的是为了使得n个样品点在Cl轴方向上的离 散程度最大,即Cl的方差最大。变量Cl代表了原始数据的绝大 部分信息,在研究某问题时,即使不考虑变量C2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Cl轴上,对数据中包含的信息起到了浓缩作用。; Cl,C2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Cl轴上,而C2轴上的方差很小。Cl和C2称为原始变量x1和x2的综合变量。C简化了系统结构。 ;主成分分析的数学模型;;;(全)主成分模型;主成分的性质 : 主成分C1,C2,…,Cp具有如下几个性质: (1) 主成分间互不相关,即对任意i和j,Ci 和Cj的相关系数Corr(Ci,Cj)=0 i ? j (2) 组合系数(wi1,wi2,…,wip)构成的向量为单位向量, wi12+wi22+ … +wip2=1 (3) 各主成分的方差是依次递减的, 即 Var(C1)≥Var(C2)≥…≥Var(Cp) ;(4) 总方差不增不减, 即 Var(C1)+Var(C2)+ … +Var(Cp) =Var(x1)+Var(x2)+ … +Var(xp) =p 这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种重组,主成分不增加总信息量,也不减少总信息量。 (5) 主成分和原变量的相关系数 Corr(Ci,xj)=wij;(6) 令X1,X2,…,Xp的相关矩阵为R, (wi1,wi2,…,wip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值?i就是第i主成分的方差, 即 Var(Ci)= ?i 其中?i为相关矩阵R的第i个特征值(eigenvalue) ?1≥?2≥…≥?p≥0 (7)第i个主成分对所有原变量的贡献为:;求主成分的步骤;2.解特征方程|R-λI |=0,求出相关阵R的特征根(eigenvalue)λi,且按从大到小顺序排列: λ 1≥ λ2≥ …≥ λp , 3.求矩阵R关于λi的满足正规条件的特征向量(eigenvector): Li=(li1, li2,…,lip) 特征向量即为主成分系数。 当变量较多时,特征根的计算较复杂,需借助计算机软件实现。;一个简单例子;1.求相关系数矩阵R r11=r22=1, r12=r21=0.9547;3.求特征向量Li λ1=1.9547所对应的特征向量用下式解: l11+0.9547l12=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1 得l11=0.7071, l12=0.7071, 第一主成分为: C1=0.7071X 1+0.7071X2 同样的方法,用λ2=0.0453可计算出第二主成分,此处略。; 主成分的数目的选取 如前所述,p个随机变量,便有p个主成分。由于总方差不增不减,C1,C2等前几个综合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小。 一般来说,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。 ;保留多少个主成分主要考虑保留部分的累积方差在方差总和中所占百分比(即累积贡献率),它标志着前几个主成分概括信息之多寡。实践中,一般推荐达到80%的累积方差即可。常用的判断方法有: 1. 特征值准则:取特征值1的主成分。是SPSS软件默认的方法。 2. 累积方差比例原则:一般推荐累积方差比例达到80%以上时,即可停止选择主成分。 3. 利用碎石图:将主成分按特征根从大到小排列,画出特征根随主成分个数变化的散点图,根据图的形状来判断保留主成分的个数。曲线开始变平的前一个点(拐点)认为是提取的最大主成分数。也就是根据特征根的变化速率来确定。 ;;特征值、方差比例和累积贡献率;主成分Ci表达式: SPSS软件不能直接给出主成分系数wij,经过FACTOR 过程产生的是因子负荷系数,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需将因子负荷系数输入数据编辑窗口,利用 “主成分相应特征根的平方根与特征向量乘积为因子负荷系数”的性质用TRANSFORM——COMPUTE 来计算特征向量,得到主成分的线性表达式。;因子负荷

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档