主成分分析(本科)复习课程.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教学课件课件PPT医学培训课件教育资源教材讲义

则样本协方差矩阵和样本相关矩阵分别为 其中 为样本均值.可以用S代替 用 代替R, 然后从S或 出发按类似于丄一节的方法求得样本主成分. 一、从S出发求主成分 设 为S的p个特征值, 为相应的单位特征向量,且彼此正交.则第i样本主成分为 它具有样本方差 各主成分之间的 样本协方差为零.此外,样本总方差 (7.3.1) 与 的样本相关系数 (7.3.2) 其中 在实际应用中,我们常常让 减去 使样本数据中心化. 这不影响样本协方差矩阵S,在前面的讨论中唯一需要变化的 是,将第i主成分改写成中心化的形式,即 (7.3.3) 定义: 若将各观测值 代替上式中的观测值向量x, 则第i主成 分的值为 (7.3.4) 称之为观测值 的第i主成分得分. 第七章 主成分分析 指导老师:XXX 授课人:XXX 第七章 主成分分析 §7.1 引言 §7.2 总体的主成分 §7.3 样本的主成分 假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? 当然不能。汇报什么? 发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。 §7.1 引言 在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关的多个指标,这些指标在多元统计中也成为变量. 什么是主成分分析法? 主成分分析( Principal Components Analysis )和因子分析(Factor Analysis)就是把变量维数降低以便于描述、理解和分析的方法。 主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标) ,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。 这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量(这与聚类分析不同),只是几个指标的综合。 在引入主成分分析之前,先看下面的例子。 成绩数据 53个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分). 从本例可能提出的问题 1.能不能把这个数据表中的6个变量用一两个综合变量来表示呢? 2.这一两个综合变量包含有多少原来的信息呢? 3.能不能利用找到的综合变量来对学生排序呢? 事实上,它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。 比如对n个区域进行综合评价,可选的描述区域特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。 这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综合指标,达到既减少指标数量、又能区分区域间差异的目的。 (1)每一个新变量(主成分)都是个原始变量的线性组合; (2)新变量(主成分)的数目大大少于原始变量的数目; (3)新变量(主成分)保留了原始变量所包含的绝大部分信息; (4)各新变量(主成分)之间互不相关。 通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能较有效利用大量统计数据行进定量分析,揭示变量之间存的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入. 设有N个样品,每个样品有两个观测量 这样在由变量 组成的坐标空间中,N个样品散布的情况如图,大致分 布在一个椭圆内。 二、主成分分析的几何意义 显然,在坐标系中,n个点的坐标 x1 和x2呈现某种(线性)相关性.由图可以看出这N个样品无论沿x1轴方向还是沿x2轴方向均有较大的离散性,其离散程度可以分别用观测变量x1的方差和 x2的方差定量的表示,显然,若只考虑其中的任何一个,原始数据中的信息均会较大的损失. 是考虑x1和x2的线性组合,使原始样本数据可以由变量来刻画.在几何上表示就是将坐标轴按逆时针方向旋转 角度. 我们的目的 在新坐标系中,可以发现:虽然散点图的形状没有改变,但新的随机变量y1和y2 已经不再相关.而且大部分点沿y1轴散开,在y1 轴方向的变异较大(即y1的方差较大),相对来

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档