应用统计学之用少数变量代表多个变量培训课件(ppt 48页).ppt

应用统计学之用少数变量代表多个变量培训课件(ppt 48页).ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用统计学之用少数变量代表多个变量培训课件(ppt 48页)

* * 如果你要到裁缝店定做一件上衣,需要测量很多尺寸,譬如身长、袖长、胸围、腰围、肩宽、肩厚等。但服装厂要生产一批新型服装,却不可能完全按照每个人的这些尺寸来对型号进行划分,而是把各个方面进行高度概括,用少数几个指标作为分类的型号,简单明了的反映不同人群的体态特征。 日常生活中经常遇到包含很多变量的数据,比如各个地区的若干经济指标数据,上市公司财务报表公布的多项财务数据等等。 这些数据中的变量虽然很多,但往往相互之间都有着一定的关联,这使得只要找出少数几个“代表”就可以对复杂的信息进行比较完整的描述了。主成分分析和因子分析便是实现这一过程的两种方法。 * 第 8 章 用少数变量代表多个变量 8.1 主成分分析 8.2 因子分析 * 在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。 为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。 主成分分析和因子分子正是解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观。 主成分分析和因子分析 (Principal Component Analysis Factor Analysis) * 8.1 主成分分析 8.1.1 主成分分析的基本思想是什么? 8.1.2 如何选择主成分? 8.1.3 怎样解释主成分? 第 8 章 用少数变量代表多个变量 * 8.1.1 主成分分析的基本思想是什么? 8.1 主成分分析 * 主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性的一种多元统计方法 研究如何通过少数几个主成分来解释多个变量间的内部结构。即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。 主成分分析的目的:数据的压缩;数据的解释 它常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。 什么是主成分分析? (Principal Component Analysis) * 【例8.1】表8-1是北京市某高中50名学生的六门课程测试成绩数据 乍一看,很难从这六门课程的测试得分来评价这50名学生的成绩优劣,也很难分析这些学生的成绩分布特征。要解决这样的问题,自然希望能把这一数据中包含的六个变量概括成一两个综合变量。那么这一做法是否可行呢?提炼出来的少数变量能够代表原数据的多少信息?如何解释它们呢?我们首先来了解一下主成分分析的基本思想。 对于例8.1中的数据,每一个学生的观测值都包含了六个变量,所以表示在坐标系中每一个观测值就是六维空间中的一个点,每一维就代表一个变量。把六个变量概括成一两个综合变量,实质上就是一个降维的过程。 主成分分析的基本思想是什么?  表8-1 北京市某高中学生六门课程测试成绩数据 * 对于存在线性相关的两个变量,直接进行分析可能由于多重共线性而无法得出正确结论。 如何对这两个变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理? 分别用横轴和纵轴表示两个变量,每个观测值就是二维坐标系中的一个点,所有的数据点大致散布成一个椭圆形,那么这个椭圆有一个长轴和一个短轴,我们称之为主轴,主轴之间是相互垂直的。 主成分分析的基本思想是什么? (以两个变量为例) 显然,短轴方向上,数据点之间的差异较小;长轴方向上,数据变化则较大。如果原坐标系中的横轴和纵轴能够分别与椭圆的长短轴平行,那么相对来说,长轴所代表的变量就描述了数据的主要变化,短轴所代表的变量则描述了数据的次要变化。 * 现在沿椭圆的长轴设定一个新的坐标系,则新产生的两个变量和原始变量之间存在明显的数学换算关系。 但这两个变量彼此不相关,且信息量的分布显然不同。长轴变量携带了大部分数据变异的信息,而短轴变量只携带了一小部分变异信息。椭圆的长轴和短轴相差越大时,说明长轴方向所代表的变量包含原始信息越多,那么用这个新变量来代替原始的两个变量(即忽略包含少数信息的短轴变量)也就越合理,从而二维数据就可以降低为一维数据。 但现实数据往往并不满足这样的条件,这就需要把原始数据构成的坐标系进行旋转,产生一个新的坐标系,使得新坐标系的横轴和纵轴与椭圆的长短轴平行,实质上也就是把原数据中的两个变量变换成两个新的变量。 主成分分析的基本思想是什么? * 主成分分析的基本思想就是把原始数据构成的椭圆的主轴找出来,再用代表绝大部分信息的那个轴(也就是长轴)作为代替原始变量的新变量。多维变量降维过程类似。只要把原始数据散布的高维椭球的各个主轴找出来,选择最

文档评论(0)

tangtianxu1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档