应用统计学之用少数变量代表多个变量培训课件.ppt

应用统计学之用少数变量代表多个变量培训课件.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;如果你要到裁缝店定做一件上衣,需要测量很多尺寸,譬如身长、袖长、胸围、腰围、肩宽、肩厚等。但服装厂要生产一批新型服装,却不可能完全按照每个人的这些尺寸来对型号进行划分,而是把各个方面进行高度概括,用少数几个指标作为分类的型号,简单明了的反映不同人群的体态特征。 日常生活中经常遇到包含很多变量的数据,比如各个地区的若干经济指标数据,上市公司财务报表公布的多项财务数据等等。 这些数据中的变量虽然很多,但往往相互之间都有着一定的关联,这使得只要找出少数几个“代表”就可以对复杂的信息进行比较完整的描述了。主成分分析和因子分析便是实现这一过程的两种方法。;第 8 章 用少数变量代表多个变量;在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。 为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。 主成分分析和因子分子正是解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观。;8.1 主成分分析 8.1.1 主成分分析的基本思想是什么? 8.1.2 如何选择主成分? 8.1.3 怎样解释主成分? ;8.1.1 主成分分析的基本思想是什么?;主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性的一种多元统计方法 研究如何通过少数几个主成分来解释多个变量间的内部结构。即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。 主成分分析的目的:数据的压缩;数据的解释 它常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。;【例8.1】表8-1是北京市某高中50名学生的六门课程测试成绩数据 乍一看,很难从这六门课程的测试得分来评价这50名学生的成绩优劣,也很难分析这些学生的成绩分布特征。要解决这样的问题,自然希望能把这一数据中包含的六个变量概括??一两个综合变量。那么这一做法是否可行呢?提炼出来的少数变量能够代表原数据的多少信息?如何解释它们呢?我们首先来了解一下主成分分析的基本思想。 对于例8.1中的数据,每一个学生的观测值都包含了六个变量,所以表示在坐标系中每一个观测值就是六维空间中的一个点,每一维就代表一个变量。把六个变量概括成一两个综合变量,实质上就是一个降维的过程。;对于存在线性相关的两个变量,直接进行分析可能由于多重共线性而无法得出正确结论。 如何对这两个变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理? 分别用横轴和纵轴表示两个变量,每个观测值就是二维坐标系中的一个点,所有的数据点大致散布成一个椭圆形,那么这个椭圆有一个长轴和一个短轴,我们称之为主轴,主轴之间是相互垂直的。;现在沿椭圆的长轴设定一个新的坐标系,则新产生的两个变量和原始变量之间存在明显的数学换算关系。 但这两个变量彼此不相关,且信息量的分布显然不同。长轴变量携带了大部分数据变异的信息,而短轴变量只携带了一小部分变异信息。椭圆的长轴和短轴相差越大时,说明长轴方向所代表的变量包含原始信息越多,那么用这个新变量来代替原始的两个变量(即忽略包含少数信息的短轴变量)也就越合理,从而二维数据就可以降低为一维数据。 但现实数据往往并不满足这样的条件,这就需要把原始数据构成的坐标系进行旋转,产生一个新的坐标系,使得新坐标系的横轴和纵轴与椭圆的长短轴平行,实质上也就是把原数据中的两个变量变换成两个新的变量。;主成分分析的基本思想就是把原始数据构成的椭圆的主轴找出来,再用代表绝大部分信息的那个轴(也就是长轴)作为代替原始变量的新变量。多维变量降维过程类似。只要把原始数据散布的高维椭球的各个主轴找出来,选择最长的几个轴作为新变量,主成分分析就基本完成了。 作为椭圆(或椭球)的主轴,它们之间是相互垂直的,在代数上,这些新变量是原始变量的线性组合,叫作主成分(principal component)。 原始数据中有几个变量,它们构成的椭球就有几个主轴,也就意味着最终可以找到几个主成分。;降维的目的,是选择越少的主成分来代表原先的变量效果越好。 根据主成分分析的思想,选择的标准则是要求被选中的主成分所对应的主轴的长度之和能够占所有主轴长度总和的大部分。至于占到多少才足够具有代表性,并没有一个硬性的说法。 在实际中,如果数据中包含的变量之间相关性很差,降维也就很难实现,因为不相关的变量显然无法找到一个很好的共同的代表。所以具体选几个主成分,要视实际情况而定。 有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是

您可能关注的文档

文档评论(0)

文档收藏爱好者 + 关注
官方认证
内容提供者

事业编考题需要答案请私聊我发答案

认证主体莲池区卓方网络服务部
IP属地广东
统一社会信用代码/组织机构代码
92130606MA0GFXTU34

1亿VIP精品文档

相关文档