SPSS教程06(带图)_聚类分析和判别分析_chenxy.docVIP

SPSS教程06(带图)_聚类分析和判别分析_chenxy.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
简单教程 06 相关配套数据 已经 上传百度文库: 配套软件 SPSS 17.0 已经上传百度文库; 百度文库搜索“SPSS简单教程配套数据及软件_chenxy” 百度云盘链接 7. 聚类分析 2 7.1 Q型聚类 2 7.2 R型聚类 9 7.3 快速聚类 10 8. 判别分析 15 8.1 判别分析_全模型法(无待判别个体) 17 8.2 判别分析_逐步选择法(无待判别个体) 29 聚类分析 聚类分析(Cluster Analysis):又称群分析、点群分析、簇类分析等,根据事物本身的特性研究个体分类的方法,是研究“物以类聚”的一种方法。 聚类分析的基本思想:在聚类分析的基本思想是认为研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些彼此之间相似程度较大的样本(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。 分层聚类( Hierarchical Cluster ),反映事物特点的变量很多,根据所研究的问题选择部分变量对事物的某一方面进行研究。 快速样本聚类(Quick Cluster),就是对观测值进行聚类,是反映被观测对象特征的各变量进行分类;当要聚成的类数已知时,使用快速聚类过程可很快将观测量分到各类中去。 层次聚类法最终得到的只是一个树状结构图,从图中可以看出存在很多不同的类, 四个因素会大大影响聚类方法的使用效果: 类的结构(主要指类的形状、规模和个数) 奇异值(Outliers)的存在 类与类之间重叠的程度 相似测度的选择 聚类分析的基本步骤 数据标准化 计算对象之间的相异度(距离衡量两个对象之间的相异度) 选择类与类之间的距离定义 聚类 分类:依据实际需要,确定以第几层的类为最终的分类标准。 目标; 根据聚类结果 写出聚类过程 和 最后的聚类情况 层次聚类分析:是根据观察值或变量之间的亲疏程度,将最相似的对象结在一起,以逐次聚合的方式(Agglomerative Clustering),它将观察值分类,直到最后所有样本都聚成一类。 层次聚类分析中的Q型聚类:是对样本(个案)进行分类; 层次聚类分析中的R型聚类:是对研究对象的观察变量进行分类。 聚类时会涉及两种类型亲疏程度的计算: 样本数据之间的亲疏程度 样本数据与小类、小类与小类之间的亲疏程度。 7.1 Q型聚类 定义:对样本(个案)进行分类 操作步骤1 :(数据文件见聚类分析_Q型聚类) 对样本数据作聚类分析,设定变量中必须对所分类目标的数据类型设为 String(字符串) 点击Type所在列 对应行数据 单元格 更改type 为 String 对于String 类型数据 直接可以在Data view数据窗口 录入汉字,字母等其他形式数据 操作步骤2 : Analyze - Classify - Hierarchial 点击 - Method 选择默认选项不做更改 点击 - plots 点击 - Statistics 点击 -continue - OK 结果如下 输出结果以及分析结果如下: 判定:数据是否丢失; 由表格显示 N=10 且percent = 100% 故 无数据丢失 近似矩阵:判定数据相似性 显示任意两个个案(学生姓名)之间的距离,且距离越小近似性越高 由表看出:正对角线值都为0,意为自己与自己本身完全相关完全相似,故距离为0 第一列 stage(1-9):表示本次实验迭代的次数 第二列 cluster combined:表示本次试验中每次迭代所聚类的两个簇(簇可以是一个个案也 可以是一个已经聚集的小类) 第三列 coefficients:表示所比较两个簇之间的距离,必须从小到大排序 第四列 stage cluster first appears :若C1=0且C2=0,则表示为两个个案之间的聚类 若 C1,C2仅有一个为0,则为个案和小类之间的聚类 若 C1,C2都不为0,则为两个小类之间的聚类 第五列 next stage : 表示在第几次迭代中需要使用到本次迭代所生成的小类 具体分析该表格: 开始共分为10个个案,则可以简单看作为分成10个簇,第一个个

文档评论(0)

希望之星 + 关注
实名认证
文档贡献者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档