SAS培训教程文件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS培训教程文件

第十三章 多元分析 13.1 简介 13.2 主成分分析过程 1.主成分定义 在实际问题中,会遇到多个变量之间存在一定的相关性的情况。 希望用少数几个变量来代替原有的多个变量,要求 尽可能多地反映原变量的信息 彼此之间互不相关 可看作一种数据降维方法 方法:主成分分析/主分量分析 综合后的新指标:主成分/主分量 设总体 X = ( X1 X2 … Xp)? 是一个p维向量,其二阶距存在,记 Var( X )=?, 则称 X 的分量的线性组合Yj = lj ? X 为X的第 j 个主成分,它应满足如下要求: 在 lj ?lj = 1 lj ?? li = 0 , i=1,2,…,j-1 的条件下使 Var( Yj )=? lj ?? lj j=1,2,…,p 达到最大。 实际中,需用样本统计量估计总体参数: 设来自总体X的容量为n的样本观测向量为 x1, x2 , … xn , 其中 x1 =( xi1 xi2 … xin )?, i=1,2,…,n np 将样本协方差阵 S 作为? 的估计, 此时求得的是样本主成分。 不是一般性,可假定 样本的每一个分量均已标准化了 样本的均值向量为0 此时样本协方差阵 S 即为样本的相关系数阵R。 2. PRINCOMP过程步的格式 PROC PRINCOMP 选项; VAR 变量名列; PARTIAL 变量名列; BY 变量名列; /*指出分组变量*/ FREQ 变量名; /*指出频数变量*/ WEIGHT 变量名; /*指出权重变量*/ 3. PRINCOMP过程的功能 完成主成分分析。 计算相关阵或协差阵的特征值和特征向量,当特征值按从大到小排列时,由相应特征向量可得到第一主成分、第二主成分等。 用少数几个主成分代替原始变量,并计算主成分得分; 由得分数据可以画主成分得分的散点图。 计算结果: 简单统计量(均值、标准差等) 相关阵或协差阵 从大到小排列的特征值和特征向量 每个主成分解释的方差比例,累计比例等 输出数据集: 包含原始数据和主成分得分,可作为主成分回归或聚类分析的输入数据集 包含有关统计量的数据集 可用来揭示变量间的共线关系:若存在某个特征值=0; 可进行基于偏相关阵或偏协差阵的主成分分析 用户可规定下列内容: 主成分的个数 主成分的名字 主成分得分是否标准化 4.说明 (1)PROC PRINCOMP语句 PROC PRINCOMP 选项; 启动PRINCOMP过程; 识别输入输出数据集; 规定分析的细节; 限制打印输出 选项: 1)规定数据集 DATA=数据集名:指出被分析的数据集, 可以是原始数据集 也可以是TYPE=CORR,COV,FACTOR,SSCP,UCORR, UCOV的数据集 OUT=数据集名:指定一个包含原始数据和主成分得分的输出数据集。 OUTSTAT=数据集名:指定一个包含均值、标准差、观测个数、相关阵或协差阵、特征值和特征向量的输出数据集。 2)规定分析细节 COVARIANCE | COV:要求从协差阵出发计算主成分, 系统默认选项:从相关阵出发计算主成分。 COV选项:将使得方差大(小)的变量同具有大(小)特征值的成分有更密切的联系; 适用于:变量的测量单位是可比较的,或变量已用某些方法标准化。 N=number:指定被计算的主成分个数, 系统默认值:原变量个数 要求:number0 且是整数 NOINT:在模型中不使用截距项,即协差阵或相关阵不对均值作修正。 PREFIX=name:指定主成分名字的前缀 系统默认值:PRIN1 , PRIN2 , … , PRINn 前缀字符个数+数字位数≤8 STANDARD | STD:要求在OUT=的数据集里把主成分得分标准化为单位方差。 缺省值:主成分得分的方差等于相应的特征值。 VARDEF = DF | N | WEIGHT | WGT | WDF:指定计算方差和协方差的除数。 缺省值:VARDEF=DF。 SINGULAR|SING = p:指定奇异性准则。 PARTIAL语句中的某变量,当它由之前的变量预测时的R2像1- p 这样大时,则指定该变量的标准化系数为0。 缺省值:1E-8。 0 p 1 3)限制输出 NOPRINT:不输出计算结果 (2)VAR语句 VAR 变量名列; 列出要分析的数值变量的名字。 缺省

文档评论(0)

taotao0b + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档