- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十一章主成分分析
第十一章 主成分分析 王晓林 2010年5月31日 多项指标研究,可以较为全面地反映研究对象的特征,但是提高了分析问题和模型应用的难度与复杂性,所以人们自然希望能用较少的几个指标来代替原来的众多指标,而又能尽可能多地保留原来指标反映的信息,这就是降维问题。当指标之间具有一定的相关性时,这是可以做到的。主成分分析就是一种基本的降维方法,从其他角度出发,降维方法还有因子分析、对应分析、典型相关分析等。本章主要介绍主成分分析,下章将介绍因子分析。 体育科研中的“指标”也就是统计方法中的“变量”,在下文中我们将根据具体场合交叉使用这两个名称。 主成分分析 第一节 主成分分析 第二节 主要统计结果及解释 第三节 主成分分析应用举例 第一节 主成分分析 我们在体育科研中经常会遇到多指标的问题,这时若只用其中个别指标,虽然方便,但却要损失很多信息;若分别用每一个指标对研究对象进行描述和评价显然很不方便,而且得到的描述和评价是孤立的,没有反映内在联系。因此,我们自然希望能用较少的几个综合指标替代多个指标,而又尽量少损失信息。当指标之间具有相关关系时,这是可以做到的。主成分分析就是解决这一问题的有效方法之一。 主成分分析是要将原p个变量综合成少数几个综合变量(即主成分),要求这几个综合变量尽可能多地反映原p个变量提供的信息,而且彼此无关(坐标系中相互垂直) 一、主成分分析问题 例:男童的身高x与体重y之间是高度相关的,散点图中的点都在一条直线附近。我们若以这条直线的方向为新的坐标变量z1,则z1一个变量就能较好地区分各点的位置。换言之,z1能反映x与y提供的大部分信息,z1 就是我们所要的主成分。当然,我们还能取第二个主成分z2 ,但所能提供的信息很少。另外,这时取两个主成分就达不到降维的目的了。 设一组变量x1、x2…xp 的一个样本包含n个样品(每个观察对象的x1 、x2…xp的值称为一个样品),第k个样品的xi 的值记为xik , xi的均数记为,则变量xi 与xj 的样本方差为 xi 与xj 的协方差是反映两变量关系的密切程度。事实上,它反映了两变量共同变化的部分,即xi 的变化决定于xj 的部分,也是xj 的变化决定于xi 的部分。 一个变量自己与自己的协方差就是该变量的方差。将变量标准化后再求协方差,也就是相关系数。 矩阵(即一个数表) 称为x1、x2…xp 的协方差矩阵,简称协差阵。由相关系数构成的矩阵称为相关系数矩阵,简称为相关阵。 主成分分析可以用协差阵计算,也可以用相关阵计算。用协差阵计算相当于求原始变量的主成分,用相关阵计算相当于求标准化变量的主成分,如上所述,体育领域中一般应该用相关阵计算。 本章以下内容都是基于用相关阵计算,也就是求标准化变量的主成分这一前提的。 (二)主成分的数学模型描述 设有p个标准化变量x1、x2…xp ,则最多可得p个主成分:z1、z2、zp 。对主成分可作如下描述: 主成分是x1、x2…xp 的线性组合,即 Z1=a11x1+a12x2+…+a1pxp Z2=a21x1+a22x2+…+a2pxp Zp=ap1x1+ap2x2+…+appxp … … … … … 每个主成分系数向量的长度均为1(向量是一个有排列顺序的组数,其长度是个数的平均和的算数平方根,长度为1的向量称为单位向量)。求主成分zi ,也就是要确定系数aij 。 2. 各主成分互不相关(相互垂直) 3. 主成分是有次序的(根据方差由大到小排序) 4. 主成分的均数为0 三、主成分分析所需的原始数据 如要对P个变量x1、x2…xp 作主成分分析,则须抽取一个样本,测取样本中每个观察对象的x1、x2…xp 的值,数据格式如下表所示,注意每个对象各指标的值都要测全。主成分分析中的原始变量地位都相同,没有自变量与因变量之分,变量的排列顺序也不会对结果产生实质性影响。 主成分分析的原始数据表 对象 x1 X2 … Xp 1 x11 X21 … Xp1 2 x12 X22 … Xp2 … … … … … n x1n X2n … Xpn 第二节 主要统计结果及解释 一、相关阵的特征值、贡献率、累计贡献率 (一)相关阵的特征值(主成分的方差贡献) 设有p个变量,可得到pxp的相关阵,最多可得p个特征值。 特征值由大到小给出,即 λ1≥ λ2≥ …≥λp 一般(当相关阵是满秩的)有 λi就是第i个主成分zi的方差,反映了zi 提供的信息量,所以又称为zi的方差贡献。 (二)贡献率 第i个主成分的贡献率为: 贡献率反映了该主成分提供的信息量占总信息量的百分比。 (三)累计贡献率 前
您可能关注的文档
最近下载
- 胃间质瘤ppt护理查房.pptx VIP
- 胃间质瘤护理查房.pptx VIP
- 拓尔微产品规格书TMI3493.pdf VIP
- 最新人教版二年级英语上册(新起点)电子课本课件【全册】.pptx VIP
- 初中历史人教版八年级上册全套教案.pdf
- 七年级生物上册 1.1.1生物的特征教学设计 (新版)新人教版.docx
- 【真题】七年级下学期期末数学试题(含解析)陕西省西安市铁一中学2024-2025学年.docx VIP
- CCEA GC 11-2019 工程造价咨询企业服务清单.docx VIP
- 《数控机床结构与维护》全套PPT课件.pptx
- 烧结球团-11球团工艺过程检测与产品质量检验.ppt VIP
文档评论(0)