- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析PPT4.1
* * 例4.2的程序 data examp4_2 (type=cov); _type_=COV; input _name_ $ x1 x2 @@;cards; x1 1 4 x2 4 100;run; proc princomp data=examp4_2 cov; var x1 x2; run; proc princomp data=examp4_2; var x1 x2; run; * * 例4.1.2 学生身体各指标的主成分分析. 随机抽取30名某年级中学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),数据以下SAS程序的数据行. 试对中学生身体指标数据做主成分分析. 解 (1) 以下SAS程序首先生成包括30名学生身体指标数据的SAS数据集d721(其中变量NUMBER记录识别学生的序号),然后调用SAS软件中的PRINCOMP过程进行主成分分析. * * Data d721; input number x1-x4 @@ ; cards; 1 148 41 72 78 2 139 34 71 76 3 160 49 77 86 4 149 36 67 79 ………………………………... 27 144 36 68 76 28 141 30 67 76 29 139 32 68 73 30 148 38 70 78 ; proc princomp data=d721 prefix=z out=o721 ; var x1-x4; run; 该选项规定 主成分的前 缀名字为z 生成包含主 分量得分的 输出数据集 行指针控制符 指示读完该行 数据行后再 跳到下一行。 * * proc plot data=o721; plot z2*z1 $ number=*; run; proc sort data=o721; by z1; run; proc print data=o721; var number z1 z2 x1-x4; run; 绘制前二个主成分得分的散点图.作图符号为*,并在每散点旁边加上序号,以便识别各个观测. 把输出集o721按第一主成分 z1的得分值从小 到大排序 输出排序后的数据集o721 * * 例4.2.1的输出结果 学生身体指标数据的描述统计量和相关阵 * * 输出7.2.1 相关阵的特征值和特征向量 例4.2.1的输出结果 * * PRINCOMP过程由相关阵出发进行主成分分析.由输出4.2.1中相关阵的特征值可以看出, 第一主成分的贡献率已高达88.53%;且前二个主成分的累计贡献率已达96.36%.因此只须用两个主成分就能很好地概括这组数据. 另由第三和四个特征值近似为0,可以得出这4个标准化后的身体指标变量(Xi*,i=1,2,3,4)有近似的线性关系(即所谓共线性),如 0.505747 X1* -0.690844 X2* +0.461488 X3* -0.232343 X4*≈0. * * 由最大的两个特征值对应的特征向量可以写出第一和第二主成分: Z1=0.4970 X1*+0.5146 X2* +0.4809 X3* +0.5069 X4* Z2= -0.5432 X1* +0.2102 X2* +0.7246 X3* - 0.3683 X4* 第一和第二主成分都是标准化后变量Xi* (i=1,2,3,4)的线性组合,且组合系数就是特征向量的分量. * * 利用特征向量各分量的值可以对各主成分进行解释. 第一大特征值对应的第一个特征向量的各个分量值均在0.5附近,且都是正值,它反映学生身材的魁梧程度.身体高大的学生,他的4个部位的尺寸都比较大;而身体矮小的学生,他的4个部位的尺寸都比较小.因此我们称第一主成分为大小因子. * * 第二大特征值对应的特征向量中第一(即身高X1的系数)和第四个分量(即坐高X4的系数)为负值,而第二(即体重X2的系数)和第三个分量(即胸围X3的系数)为正值,它反映学生的胖瘦情况,故称第二主成分为胖瘦因子. * * 输出4.2.2 第二主成分得分对第一主成分得分的散布图 * * 输出4.2.2是PLOT过程产生的输出图形,从图中可以直观地看出,按
文档评论(0)