数据分析二主成分分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析二主成分分析

数据分析二 主成分分析 主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间存在着一定的相关性,因而使得所观测到的数据在一定程度上反映的信息有所重迭。而且当变量较多时,在高维空间中研究样本的分布规律比较复杂。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,而且彼此之间互不相关。利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法。本章介绍主成分分析方法。 §5.1 总体的主成分 1.总体主成分的定义 设是维随机向量,均值,协差阵。考虑它的线性变换: (5.1) 易见 定义5.1 设为维随机向量。称为的第主成分,如果: ① ②当时 ③ 2.总体主成分的性质 记,,其中为的特征值,是相应的标准化特征向量。主成分,其中 。 ①,即个主成分的方差为:,且它们是互不相关的。 ② 常称为系统总方差,该性质说明系统总方差可分解为不相关的主成分的方差和,且存在,使。即个原变量所提供的总信息的绝大部分只须用前个主成分来代替。 ③主成分与原始变量的相关系数 并把主成分与原始变量的相关系数称为因子负荷量。 ④ 因也可表示成的线性组合,且相互独立,由回归分析的知识,与的全相关系数的平方和等于1。 ⑤ 用主成分的目的是为了减少变量的个数,故在实际应用中一般绝不用个主成分,而选用()个主成分。取多大,这是一个很实际的问题。为此,我们引进贡献率的概念。 定义5.2 称为主成分的贡献率;又称为主成分()的累计贡献率。 定义5.3 前个主成分对原变量的贡献率是与相关系数的平方,它等于 §5.2 样本的主成分 上节讨论了总体的主成分,在实际问题中,一般协差阵未知,需要通过样本来估计。设为来自总体的样本,样本离差阵及样本相关阵分别为 用作为的估计或用作为总体相关阵的估计。 样本主成分的定义 设,并且每个变量的观测数据都已标准化,这时样本协差阵就是样本相关阵。且 记阵的个主成分。为R的特征值,是相应的标准化特征向量。显然。将第t个样品的值代入得样品的第个主成分得分。 样本主成分的性质 ① ② 称为样本主成分的贡献率;又称为样本主成分的累计贡献率。 ③样本主成分具有使残差平方和最小的优良性。 §5.3 PRINCOMP(主成分)过程 为了考察个数值变量之间的相关性,调用PRINCOMP过程进行主成分分析。用户可以使用下列语句来调用PRINCOMP过程: PROC PRINCOMP 选项1 选项2 …; VAR 变量1 变量2 …; WEIGHT 变量; FREQ 变量; PARTIAL 变量1 变量2 …; BY 变量1 变量2 …; 除调用过程的PROC PRINCOMP语句外,VAR语句经常使用,其它语句是选择使用的语句。 1.PROC PRINCOMP语句 可以出现在PRINCOMP过程语句中的常用选项如下: ①DATA=SAS数据集——给出被分析的SAS数据集的名字。 ②OUT=SAS数据集——命名一个存放原始数据以及主成分得分数据的输出数据集。 ③OUTSTAT=SAS数据集——命名一个存放均值、标准差观测个数、相关阵或协差阵、特征值和特征向量的输出SAS数据集。如果规定选择项COV,则数据集的类型为TYPE=COV,而且包含协差阵;否则,数据集的类型为TYPE=CORR,而且包含相关阵。 ④COVARIANCE——要求从协差阵出发计算主成分。如果没有规定此项选择,则从相关阵出发进行分析。 ⑤N=n——规定被计算的主成分个数。缺省值为变量个数。 ⑥NOPRINT——规定不显示输出结果。 ⑦PREFIX=name(名字)——对主成分的名字规定前缀。缺省时的名字为PRIN1、PRIN2、…、PRINp。 ⑧STANDARD——要求在OUT=数据集里主成分得分标准化为单位方差。如果没有规定此项选择,主成分得分的方差等于相应的特征值。 ⑨VARDEF=divisor(除数)——规定用于计算方差和协方差的除数。Divisor的可能值为N、DF、WEIGHT或WGT和WDF。 2.VAR语句 VAR语句列出用于进行主成分分析的变量。如果省略VAR语句,则SAS系统使用DATA=规定的数据集中所有数值变量进行主成分分析。 例5.1 下面是全国19个城市在1993年的数据,每个城市记录了6项指标: Z1:国内生产总值(亿元);Z2:固定资产投资(亿元)Z3:货运总量(万吨);Z4:社会消费品零售额(亿元);Z5:外贸出口额(亿美元);Z6:拥有电话数(万门) 具体数据如下: 指标 城市 Z1 Z2 Z3 Z4 Z5

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档