- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《多元统计分析》实验三
实验三 我国各地区城镇居民消费性支出的主成分分析和聚类分析
(王学民 编写)
一、实验目的
1.掌握如何使用SAS软件来进行主成分分析和聚类分析;
2.看懂和理解SAS输出的结果,并学会以此来作出分析;
3.掌握对实际数据如何来进行主成分分析;
4.对同一组数据使用五种系统聚类方法,学会对各种聚类效果的比较,获取重要经验;
5.掌握使用主成分进行聚类
二、实验内容
数据集sasuser.examp633中含有1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。对这些数据进行主成分分析,可将这31个地区的前两个主成分得分标示于平面坐标系内,对各地区作直观的比较分析。对同样的数据使用五种系统聚类方法聚类,并对聚类效果作比较。最后,对主成分的图形聚类和正规聚类的效果进行比较。
实验1
进行主成分分析,根据前两个主成分得分所作的散点图对31个地区进行比较分析。
实验2
分别使用最长距离法、中间距离法、两种类平均法和离差平方和法进行聚类分析,并比较其聚类效果。
实验3
主成分聚类,并与上述正规的聚类方法进行比较
三、实验要求
1.用SAS软件的交互式数据分析菜单系统完成主成分分析;
2.完成五种系统聚类方法,比较其聚类效果;
3.根据前两个主成分得分的散点图作直观的聚类,并与上述正规的聚类方法进行比较。
四、实验指导
1.进行主成分分析
在inshigt中打开数据集sasuser.examp633,见图1。选菜单过程如下:
在图1中选分析多元(Y X)在变量框中选 x1,x2,x3,x4,x5,x6,x7,x8 (见图2)Y选输出选主分量分析,主分量选项(见图3)在图4中作图中的选择(主成分个数缺省时为“自动”选项,此时只输出特征值大于1的主成分)确定确定确定
图1
图2
图3
图4
得到如图5、图6所示的结果:
图5
图6
从图5可以看出,前两个和前三个主成分的累计贡献率分别达到80.6%和87.8%,第一主成分在所有变量(除在上的载荷稍偏小外)上都有近似相等的正载荷,反映了综合消费性支出的水平,因此第一主成分可称为综合消费性支出成分。第二主成分在变量上有很高的正载荷,在变量上有中等的正载荷,而在其余变量上有负载荷或很小的正载荷。可以认为这个主成分度量了受地区气候影响的消费性支出(主要是衣着,其次是医疗保健)在所有消费性支出中占的比重(也可理解为一种消费倾向),第二主成分可称为消费倾向成分。第三主成分很难给出明显的解释,因此我们只取前面两个主成分。
在图1中选分析散点图(Y X)选 PCR1X ;PCR2Y ;region标签变量 (见图7)确定
随即出现如图8所示的散点图,接下来我们对该图进行设置、调整,使之符合我们的要求。
图7
图8
在图9的数据窗口中点击左上角的“31”,以使所有观测都选中将鼠标移至观测号中,点击右键,选在图中加标签在图8中点击左下角,出现上托菜单刻度…作图10中的选择确定作图11中的选择确定调整好散点图:拉大图外围方框;图8 中点击标记大小 ,选择6号字;下拉横坐标,左拉纵坐标
图9
图10
图11
图12
随即得到图12,该图是关于第一和第二主成分得分的散点图,该图对各地区的综合消费性支出和受地区气候影响的消费性支出占的比重有较直观的描述。从图中可以看出,上海、广东和北京在最右边,城镇居民综合消费性支出是最高的;其次是浙江和天津;江西在散点图的最左边,表明综合消费性支出是最低的;北京和西藏在散点图的最上边,说明受地区气候影响的消费性支出占的比重最高;广东在最底部,表明受地区气候影响的消费性支出占的比重最低。
2.用五种系统聚类法聚类,并比较其效果
分别使用最长距离法、中间距离法、两种类平均法和离差平方和法进行聚类分析。为此编制如下的SAS程序:
proc cluster data=sasuser.examp633 method=com std;
id region;
proc tree horizontal;
id region;
proc cluster data=sasuser.examp633 method=med std;
id region;
proc tree horizontal;
id region;
proc cluster data=sasuser.examp633 method=ave std;
id region;
proc tree horizontal;
id region;
proc cluster data=sasuser.examp633 method=ave nosquare std;
id region;
proc tree ho
原创力文档


文档评论(0)