- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算步骤 (1)将表中数据作标准化处理,并计算相关系数矩阵; (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率P69 (3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷(计算机实现) (4)求主成分 主成分是根据载荷阵,对原指标求线性组合Fi, 4、讨论的问题 (1) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 (2) 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 (3)如何解释主成分所包含的经济意义。 5、应用场合 1)主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。 2)有时可通过因子负荷aij的结构,弄清X变量间的某些关系。 3)多维数据的一种图形表示方法。根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。 4)由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。 5)用主成分分析筛选回归变量。 程序(样本按照行排列,变量是列排列) 主成分 x=[ ]; stdr=std(x); %求各变量的标准差 [n,m]=size(x); sddata=x./stdr(ones(n,1),:); %标准化变换 [p,princ,egenvalue]=princomp(sddata); %调用主成分分析 p3=p(:,1:3); %输出前三个主成分系数 sc=princ(:,1:3); %输出前三个主成分得分 egenvalue %输出特征根 per=100*egenvalue/sum(egenvalue) %输出各个主成分贡献率 %根据前三个主成分得分,使用贡献率加权得到F F=per(1,1)*princ(:,1)+per(2,1)*princ(:,2)+per(3,1)*princ(:,3) 6、思考主成分分析与因子分析的差异 参见材料中的实证研究中的例子。SPSS 聚类分析 聚类分析:一个数据集合分组成几个聚类 样品聚类在统计学中又称为Q型聚类。 变量聚类在统计学又称为R型聚类。 注意:在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量,常用的聚类统计量分为距离和相似系数两种。 1)距离:用于对样品的聚类。常用欧氏距离,在求距离前,需把指标进行标准化 。 2)相似系数:常用于对变量的聚类。一般采用相关系数 。 系统聚类 基本思想 :首先定义样品间距离及类与类之间的距离;开始时每个样品各看成一类,将距离最近的两类合并; 重新计算新类与其它类的距离,再将距离最近的两类合并; 再计算新类与其它类的距离,……,这样一步步的进行下去,每一步减少一类,直至所有的样品都合并成一类为止。 整个聚类过程可作成聚类图或树状谱(tree diagram),按树状谱作出适当的分类。类与类之间的距离有各种不同的定义方法。 距离定义方法 最短距离法(single linkage): 类与类之间距离定义为两类间样 品距离的最小值。 最长距离法(complete linkage) : 类与类之间距离定义为两类间样 品距离的最大值。 重心法(centroid method) : 类与类之间距离定义为两类的重心 之间的距离。 类平均法(average linkage) : 类与类之间距离定义为两类间样 品距离的平均值 。 聚类分析程序(样本按照行排列 x=[ ]; [n,m]=size(x); stdr=std(x); %求各变量的标准差 xx=x./stdr(ones(n,1),:); %标准化变换 y=pdist(xx); %计算各样本间距离(欧氏距离) z=linkage(y); %进行聚类(最短距离法) h=dendrogram(z); %画聚类谱系图 t=cluster(z,3); %将全部样本分为三类 find(t==2); %找出属于第二类的样本编号 设某地区有八个观测点的数据,根据最短距离法聚类分析。 clusterdata(x,6) X=[7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29; 7.68 50.37 11.35 13.3 19.25 14.59 2.75 14.
文档评论(0)