聚类分析实验报告_3.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
江西财经大学 实 验(实训)报 告 项 目 名 称 实验3―聚类分析 所属课程名称 多元统计分析 项 目 类 型 设计性实验 实验(实训)日期 2011 年 5 月 15日 班 级 08信管1 学 号 0082698 姓 名 蒋青青 指导教师 朱永军 【目的及要求】 聚类分析的目的是将分类对象按一定规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同的类里的对象倾向于不相似。 按具体的题目要求完成实验报告,并及时上传到给定的FTP和课程网站! 【基本原理】 系统聚类法是聚类分析中用的最多的一种,其基本思想是:开始将n个对象各自作为一类,并规定对象之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离;重复进行两个最近类的合并,每次减少一类,直至所有的对象合并为一类。 【实施环境】(使用的材料、设备、软件) SAS、EXCEL软件 二、实验(实训)内容: 【项目内容】 分别应用最小距离法(single linkage)、类平均法(average linkage)、离差平方和法(WarD)进行聚类分析; 【方案设计】 基于原始数据的聚类分析。 【实验(实训)过程】(步骤、记录、数据、程序等) (1)一最小距离法(single linkage) 一、CLUSTER过程 示例程序如下: proc cluster data=Sasuser.E605 standard method=sin outtree= tree pseudo ccc; /*先对数据进行标准化,采用最小距离法,并计算F统计量、伪t2 统计量 、CCC统计量*/ var x3_ x5_ x7_ VAR6-VAR9; run; 输出结果如下图 Eigenvalues of the Correlation Matrix是相关系数矩阵的特征值Eigenvalues 方面的信息 Cluster History是聚类分析的过程。 -NCL:分类个数,表示此步聚类完成行程的分类总数。 -Clusters Joined:包括两列,表示这一步合并的是哪两类(CL)或样品(OB)。如NCL=54时,合并的是第19和第20个样品;NCL=50时,合并的是类53(由第14和48个样品合成的)和第24个样品。 -FREQ :表示此次合并后得到类中包含的样品个数。 -SPRSQ :半偏 R2统计量 。 -RSQ : R2统计量 。 -PSF : 伪F统计量 -PST2:伪t2 统计量 Tie 是指在聚类的每一步,CLUSTER要按最小距离将接近的两类合并,但有时出现几个等值的最小距离行成的,本例中Tie空白说明没有产生结。 3)根据结果确定最佳匪类数 -根据RSQ : R2统计量 ,应该选择使R2下降较多之前的聚类次数。结合本实例,下降幅度相差不明显 -根据SPRSQ :半偏 R2统计量(上步和该R步2的差值,初值为1):半偏 R2越大,说明上步的合并效果教好,本实例最大的为NCL=48时,说明根据SPRSQ样品分为48类较合适。   -根据PSF伪F统计量 : 用于评价划分为NCL个类的聚类效果,越大表示这些样品可显著的划分为NCL个类。本例中伪F最大是NCL=53时,说明伪F支持分为53类。 -根据PST2:伪t2 统计量:越大表示此次合并的辆各类是有显著差异的,即上一次聚类的效果最好。本例中伪t2 最大时为NCL=48,说明划分为49类比较合适。 综合上述所述,可以认为用最小距离法分为49类较为合理。 TREE过程 TREE过程利用CLUSTER过程的输出的数据集作为输入,绘制出详细描述整个聚类过程的谱系图;同事产生下一个输出数据集,用以指出某指定的聚类水平上各个聚类中中包含的样品或指标。 SAS程序如下: proc tree data=tree horizontal;/*横向画出谱系图*/ run; 输出结果如下所示: (2)类平均法(average linkage) 一、CLUSTER过程 示例程序如下: proc cluster data=Sasuser.E605 standard method=aver outtree= tree pseudo ccc; /*先对数据进行标准化,采用类平均法,并计算F统计量、伪t2 统计量 、C

文档评论(0)

135****0879 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档