聚类分析实验报告_3.docVIP

下载本文档

3
0
约2.38千字
约 6页
2023-08-21 发布于湖北
举报
版权申诉

聚类分析实验报告_3.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

江西财经大学实验（实训）报告项目名称实验3―聚类分析所属课程名称多元统计分析项目类型设计性实验实验(实训)日期 2011 年 5 月 15日班级 08信管1 学号 0082698 姓名蒋青青指导教师朱永军【目的及要求】聚类分析的目的是将分类对象按一定规则分为若干类，这些类不是事先给定的，而是根据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相似，而在不同的类里的对象倾向于不相似。按具体的题目要求完成实验报告,并及时上传到给定的FTP和课程网站！【基本原理】系统聚类法是聚类分析中用的最多的一种，其基本思想是：开始将n个对象各自作为一类，并规定对象之间的距离和类与类之间的距离，然后将距离最近的两类合并成一个新类，计算新类与其它类之间的距离；重复进行两个最近类的合并，每次减少一类，直至所有的对象合并为一类。【实施环境】（使用的材料、设备、软件） SAS、EXCEL软件二、实验（实训）内容：【项目内容】分别应用最小距离法（single linkage）、类平均法（average linkage)、离差平方和法（WarD）进行聚类分析；【方案设计】基于原始数据的聚类分析。【实验（实训）过程】（步骤、记录、数据、程序等）（1）一最小距离法（single linkage）一、CLUSTER过程示例程序如下： proc cluster data=Sasuser.E605 standard method=sin outtree= tree pseudo ccc; /*先对数据进行标准化，采用最小距离法，并计算F统计量、伪t2 统计量、CCC统计量*/ var x3_ x5_ x7_ VAR6-VAR9; run; 输出结果如下图 Eigenvalues of the Correlation Matrix是相关系数矩阵的特征值Eigenvalues 方面的信息 Cluster History是聚类分析的过程。 -NCL：分类个数，表示此步聚类完成行程的分类总数。 -Clusters Joined：包括两列，表示这一步合并的是哪两类（CL）或样品（OB）。如NCL=54时，合并的是第19和第20个样品；NCL=50时，合并的是类53（由第14和48个样品合成的）和第24个样品。 -FREQ :表示此次合并后得到类中包含的样品个数。 -SPRSQ :半偏 R2统计量。 -RSQ : R2统计量。 -PSF : 伪F统计量 -PST2:伪t2 统计量 Tie 是指在聚类的每一步，ＣＬＵＳＴＥＲ要按最小距离将接近的两类合并，但有时出现几个等值的最小距离行成的，本例中Tie空白说明没有产生结。３）根据结果确定最佳匪类数－根据RSQ : R2统计量，应该选择使R2下降较多之前的聚类次数。结合本实例，下降幅度相差不明显－根据SPRSQ :半偏 R2统计量（上步和该R步2的差值，初值为１）：半偏 R2越大，说明上步的合并效果教好，本实例最大的为ＮＣＬ＝４８时，说明根据SPRSQ样品分为４８类较合适。　　－根据PSF伪F统计量 : 用于评价划分为ＮＣＬ个类的聚类效果，越大表示这些样品可显著的划分为ＮＣＬ个类。本例中伪F最大是ＮＣＬ＝５３时，说明伪F支持分为５３类。－根据PST2:伪t2 统计量：越大表示此次合并的辆各类是有显著差异的，即上一次聚类的效果最好。本例中伪t2 最大时为ＮＣＬ＝４８，说明划分为４９类比较合适。综合上述所述，可以认为用最小距离法分为４９类较为合理。ＴＲＥＥ过程ＴＲＥＥ过程利用ＣＬＵＳＴＥＲ过程的输出的数据集作为输入，绘制出详细描述整个聚类过程的谱系图；同事产生下一个输出数据集，用以指出某指定的聚类水平上各个聚类中中包含的样品或指标。 SAS程序如下： proc tree data=tree horizontal;/*横向画出谱系图*/ run; 输出结果如下所示：（2）类平均法（average linkage) 一、CLUSTER过程示例程序如下： proc cluster data=Sasuser.E605 standard method=aver outtree= tree pseudo ccc; /*先对数据进行标准化，采用类平均法，并计算F统计量、伪t2 统计量、C