- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章-主成分分析讲解材料.ppt
主编:费宇 主编:费宇 中国人民大学出版社 * 主编:费宇 * 第6章 主成分分析 * 主编:费宇 * 主成分分析:也称主分量分析,是由Hotelling于1933年提出的一种常用的多元统计方法. 基本思想:用个数较少,但是保留了原始变量的大部分信息几个不相关的综合变量(即主成分)来代替原来较多的变量,从而可以简化数据,对原来复杂的数据关系进行简明有效的统计分析. 主成分分析的本质就是“降维”,将高维数据有效地转化为低维数据来处理. 本章主要内容 6.1 主成分分析的基本思想 6.2 总体主成分 主成分的含义、计算、主要性质; 主成分个数的确定. 6.3 样本主成分 样本主成分的性质和计算; 主成分分析的步骤和相关R 函数. 6.4 案例:主成分综合分析 * 主编:费宇 * 6.1 主成分分析的基本思想 * 主编:费宇 * 实际统计分析中,经常处理多变量、大维数数据分析问题,分析过程较复杂,难度较大. 全部变量中可能存在信息的重叠.为去除这些信息重叠,希望用个数较少,但是保留了原始变量的大部分信息几个不相关的综合变量(即主成分)来代替原来较多的变量,达到降维的目的, 从而进行简明有效的统计分析. 主成分分析中的信息,就是指变量的变异性,常用标准差或方差来表示它. 6.2 总体主成分6.2.1 主成分的含义 以二维正态分布样本点来直观说明:如图,设有n个样品点大致分布在平面上一个椭圆内: * 主编:费宇 * 二维情形主成分的解释 样本点之间的差异是由x1和x2的变化引起的,两者变动的相差不大,但如果用新坐标y1和y2来代替,易见,这些样本点的差异主要体现在y1轴上,n个点在y1轴方向上的方差达到最大,即在此方向上包含了有关n个样品的最多的信息. 将这些点投影到 y1轴方向能使信息的损失最小,如果y1轴方向的差异占了全部样本点差异的绝大部分,那么将y2忽略是合理的,这样就把两个变量简化为一个,显然这里的y1轴代表了数据变化最大的方向,称之为第一主成分.y2称为第二主成分,并要求已经包含在y1中的信息不出现在y2中,即 * 主编:费宇 * 二维情形主成分的解释(续) 注意两个主成分y1和y2都是x1和x2的线性组合: 其中P为旋转变换矩阵,它是正交矩阵. 极端情形1:椭圆变成圆,第一主成分y1只体现了约一半的信息,若此时将y2忽略,则将损失约50%的信息,这显然是不可取的. 极端情形2:椭圆扁平到了极限, 变成y1轴上一条线段,第一主成分y1几乎包含有二维样品点的全部信息, 仅用y1代替原始数据几乎不会有任何的信息损失, 此时降维效果是非常理想的. * 主编:费宇 * 一般, 总体 的p个主成分为: 第 i 个主成分 yi 的方差为 y1 是 X 的一切线性组合中方差最大者; y2 是与 y1 不相关是 X 的一切线性组合中方差最大者; ······ * 主编:费宇 * 6.2.3 主成分的主要性质 * 主编:费宇 * X 的p个主成分所成向量为: 性质1 : 性质2: 性质3: 6.2.4 主成分个数的确定 * 主编:费宇 * 第 i 个主成分 yi 的方差贡献率为: 通常取前k (k p) 个主成分,使得的累积贡献率 即可. 6.3 样本主成分 主成分分析倾向于反映方差大的变量的信息,为避免“大数吃小数”的现象,均等地对待每一个原始变量,常常将各原始变量作标准化处理 标准化后的总体 的协方差矩阵ρ就是原总体X 的相关系数矩阵. 既可从Σ出发,也可以从 ρ出发作主成分分析,考虑到现实经济意义,后者用得更多. * 主编:费宇 * 6.3 样本主成分(续) 实际问题中 Σ 和 ρ 往往是未知的, 需要用样本的协方差矩阵 S 和样本的相关系数矩阵 R 来估计: * 主编:费宇 * 6.3.1 样本主成分的性质和计算 设S 的p个特征值为 , 对应的单位正交特征向量为 , 则样本的第 i 个主成分为 性质1 : 性质2 : 性质3 : 性质4 : * 主编:费宇 * 6.3.2 主成分分析的步骤 实际问题中更常用的是从样本
文档评论(0)