主成分分析(PCA)复习课程.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教学课件课件PPT医学培训课件教育资源教材讲义

; ;定义: 从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量(指标)化为少数几个互不相关的综合变量(指标)的统计方法。;举例说明: 对20例肝病患者进行肝功能测试,即收集4个指标(转氨酶、肝大指数、硫酸锌浊度、胎甲球)的测定得分,来评价患者的肝功能。 见PCA1.sav。;如何利用这4个随机变量对患者的肝功能作出评价? 如果仅选用其中一个变量来评价,尽管方便,却损失其它很多有用的信息,易产生片面的结论; 如果用各变量得分的合计来评价肝功能,虽然是综合考虑了所有变量,但各变量是同等地从不同侧面反映个体的性质。; 事实上,各变量所包含的信息量多少不一,各变量间不是独立的,而是有交叉、有共性、相关的;变量间的共性一般以相关性表示,相关愈大,则共性愈多,反之亦然。;主成分分析的应用条件;主成分的性质及计算; 设有m个指标x1,x2,…,xm,欲寻找可以概括这m个指标主要信息的综合指标(即:主成分) C1,C2,…,Cn,(n≤m),这n个综合指标是m个原始指标的标化值Z1~Zm的线性组合。;从理论上讲,求得的主成分个数最多可有m个,这时m个主成分就反映了全部原始指标所提供的信息; 实际工作中,所确定的主成分个数n总是小于原始指标个数m(n<m)。; 计算过程: 第一步: 将m个变量各自标准化:zi=(xi -?xi ) / si , i=1,… ,m 消除不同变量的不同量纲的影响。; 第二步:寻求(计算)主成分: 首先寻求第一主成分C1j (j为研究对象个体序号) ,它必须是z1,z2,…,zm的线性组合,即 C1j =a11z1+ a12z2+… + a1mzm ;在某个限制条件下,使C1j 的方差Var( C1j )达到最大, C1j就称为第一主成分。 Var(C1j)= λ1 ,λ为特征根;如果C1j不足以代表m个变量,则考虑采用第二主成分C2j,它也必须是z1,z2,…,zm的线性组合,即C2j=a21z1+ a22z2+… + a2mzm ;在某个限制条件下,使C2j 的方差λ2达到最大。 如此往复,直至找到最多m个主成分(主成分的个数不超过变量个数m)。 ; 按各主成分所提供的信息大小顺序,分别称C1,C2,…,Cn为第一主成分、第二主成分、 …、第n主成分; 主各成分之间互不相关,即Ci与Cj之??的相关系数rCi,Cj =0。;几个有关的术语及统计量;1、特征根: Var(Ci)= λi 各主成分所提供的信息量多少,常用其方差的大小(即特征根λ )来衡量, λ 愈大,该主成分提供的信息量就愈大,可见:λ1>λ2 > … > λm。 ;λi变化线图,即“碎石图”如下:;2、贡献率及累积贡献率 m个主成分的特征根λ 之和为m ,则:某主成分Ci的特征根λi在m中所占的比例,被称为Ci的贡献率。显然,第一主成分C1是贡献率最大的主成分,如果它的贡献率越大,则表明C1综合原始指标的能力越强。 前k个主成分的贡献率之和为前k个主成分的累积贡献率。;3、特征向量及因子载荷 主成分的线性组合中各系数aij即为特征向量; 第i主成分Ci特征根的平方根与aij的乘积即为因子载荷qij,qij= λi * aij 实际上,因子载荷是Ci与原始指标xj之间的相关系数,反映了两者之间联系的密切程度。;两个主成分与四个原始变量之间的因子载荷(或相关系数)大小见下表: 因子载荷=特征向量*sqrt(λi);两个主成分与四个原始变量之间的[特征向量/sqrt(λi )]值的大小见下表:;4、主成分得分 根据线性组合中各特征向量和各原始指标标化值Zi的大小,可以求得各主成分得分大小,利用主成分得分大小可以对研究对象的个体进行推断和评价。 但,SPSS软件中得到的是各因子得分(以默认变量名fac1_1等来保存),因子得分≈Ci/ sqrt(λi )。;主成分个数的确定 一般有两种策略。 1、均数法:计算特征根的均数?λ (因为全部m个特征根之和 = m,所以?λ=1 ),则取λ大于1的主成分; 2、经验法:当前k个主成分的累积贡献率达到80%以上,则取前k个主成分进行分析。;按累积贡献率大于80%,即提取3个主成分,结果如下:;SPSS中的程序及结果;主成分的应用;一、主成分评价 计算出的主成分(即综合指标)可以直接用来进行全面、客观的评价。;以“肝病患者的4项肝功能指标”数据为例 评价方法: 1、用第一主成分C1进行评价:根据具体资料的不同特点,如:肝功能指标值越大,说明肝功能越差,则相应的C1值越大也说明肝功能越差。将每个个体的 C1值从小到大排列,就可以将20个肝病患者的肝功能水平从高到低进行评价。;2、采用前k个主成分(C1、C2、...、Ck) 加权均数Z进

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档