实验二聚类概述.docx

下载文档 降价啦

9
0
约4.27千字
约 16页
2016-08-15 发布于湖北
举报
版权申诉
保障服务

实验二聚类概述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实验二聚类分析一．实验目的（1）通过实验操作，对于给出的数据会进行系统聚类与K—均值聚类的操作，能够合理解释得出的结果；（2）通过实验，体会聚类过程，对深刻理解聚类思想；（3）通过对不同聚类方法的实验，掌握各个聚类的过程，理解不同聚类方法的异同二．实验要求1.利用2001年全国31个省市自治区各类小康和现代化指数的数据，对地区分别作分层聚类和K-Means聚类分析。数据见：聚类分析数据（小康指数）.sav2.利用excel数据通过R实现聚类分析（其操作指南见eg4.1-4.2.txt）三．实验内容1、系统聚类（1）在spss中打开数据，查看各个名称所代表的含义，如下图：（2）点击：“分析—分类—系统聚类”，选择所需数据到变量与个案中：（3）在上图“统计量”中：（4）在“图”中，选中树状图：（5）在“方法”中：说明：上表中，聚类方法包括很多种，教材内介绍的有8种，即以何种方法聚类，在“度量——区间”中，也包括多种方法可选择，即在聚类时，彼此之间的距离的计算方法，如下图：spss得出的结果：对结果的简单说明：在上表、图中，聚类表表示的是聚类的动态过程，每一个步骤中，一个类别将哪些数据聚类在一块，在第几步聚类时，将某一个数据聚类到已经分为一个类的中，例如第一行数据，26表示甘肃，28表示江西，第一步将26、28聚在一起，然后是下一阶7，表示将26、28这个类用26表示，和30聚在一起，然后是15，即26、28、30这个类用26表示，和20聚在一起，这一以此类推，就将所有数据聚类。上图中，就是哪些先聚在一块，然后又是哪些类聚在一块，要分为几类，就以轴为横轴，画纵轴，将下面的部分分为几部分，就是聚为几类，相比较聚类表更直观，也是聚类表的直观表现。2、K—均值聚类（1）点击“分析——分类——K-均值聚类”，选择所需数据到变量与标注个案中，如下图：说明：聚类数表示所要做的聚类聚为几类，可以是3、4、等，按需求所做（2）在上图“迭代”中，选择所需要做的最大迭代次数，默认值为10，如下图：（3）在“保存”中，将聚类成员和聚类中心的距离都选中，最后在原始数据中能够显示这俩个值：（4）在“选项”中，选择统计量ANOVA表，即方差分析表，可以进行大致检验分类效果如何，如下图：在spss中得到的结果，如下图：在spss原始数据中多出的俩行数据，即为在第三步中所选中的聚类成员和与聚类中心的距离，如下图：3.练习3.1对第一个实验系统聚类的练习：在以上实验中提到聚类方法可以选择不同种，此时聚类法方选择“质心聚类法”，“区间”选择余弦，如下图：在spss中得到的结果如下：对结果的简单分析：将这次得出的结果同上面的结果进行比较，可以发现基本聚类结果相同，聚类表和聚类图的解释也基本一样，但需注意，在聚类图中，聚类类别对应的标尺的长度不同。第二个实验：在聚类数中，选择6时，如下：结果：对结果的简单分析：以上各个表的解释同上面实验中的解释，只是此时聚类中心变了，但都是经过5次迭代就达到了最终的聚类结果，ANOVA表也显示聚类效果较好。四、存在问题与解决情况本次实验，由于在实验前，已经将这部分内容了解的比较透彻，所以实验过程基本不存在什么困难，实验结果的理解上也能够清楚明了R软件：#eg4.1 系统聚类在D盘（其他盘也可以）建立文件夹，内含所需的实验数据1.打开R软件，点击“文件—改变工作路径—选中文件夹—确定”（此步目的是将实验数据导入R中），部分截图如下：2.点击“程序包—加载程序包—foreign—确定”，此步目的是使数据在R软件加载，如下图3.在R工作界面输入：（此步目的是读取已经导入到R中的数据） data4.1-read.table(D:/data/eg4.1.txt,header=T);data4.1 x1 x2 x3 x4 x5 x61 4.65 4.22 5.01 4.50 4.15 4.122 6.32 6.11 6.21 6.85 6.52 6.333 4.87 4.60 4.95 4.15 4.02 4.114 4.88 4.68 4.43 4.12 4.03 4.145 6.73 6.65 6.72 6.13 6.51 6.366 7.45 7.56 7.60 7.80 7.20 7.187 8.10 8.23 8.01 7.95 8.31 8.268 8.42 8.54 8.12 7.88 8.26 7.989 6.45 6.81 6.52 6.31 6.27 6.0610 7.50 7.32 7.42 7.52 7.10 6.95在R内继续输入： d-dist(data4.1,method=euclidean,diag=T,upper=F,p=2) #euclidean即欧氏距离 d