- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
chap04 聚类分析
第五章 聚类分析 §1 聚类分析的基本思想 §2 系统聚类法 §3 k-均值聚类有序样品的聚类 §1 聚类分析的基本思想 距离和相似系数 §2 系统聚类法 一、系统聚类法 二、最短距离法、最长距离法和中间距离法 三、重心法和类平均法 四、离差平方和法 五、系统聚类法递推公式的统一 六、用SPSS作聚类 一、系统聚类法(Hierarchical Clustering Methods) 二、最短距离法,最长距离法,中间距离法 三、重心法和类平均法 四、离差平方和法(Ward法) 五、系统聚类法递推公式的统一 在SPSS软件中,分类(Classify)过程包括以下内容: 1、两步聚类法(Two Step Cluster) 2、k-均值聚类法(k-means Cluster) 3、系统聚类法(Hierarchical Cluster) 4、判别分析(Discriminate) §3 k-均值聚类和有序样品的聚类 二、有序样品的聚类 这种方法的思想来自方差分析。 我们这样定义Gs与Gt间的距离:如果将Gs和Gt合并为Gc,其组内差的增加值的算术平方根,为Gs与Gt间的距离。 即Gs和Gt间的距离为它们的重心的欧氏距离的一个倍数。 类似于重心法并类距离递推公式的推导,不难得,离差平方和法的并类距离递推公式为: 以前例为例用重心法聚类。 1,2,5,7,9,10。 1 9 25 64 81 6 4 16 49 64 5 4 25 36 4 9 16 3 1 2 5 4 3 2 1 1、G1+G2=G7 1 9 25 96.33 6 4 16 75 5 4 40.33 4 16.33 3 5 4 3 7 2、G5+G6=G8 8.33 27 128 8 4 40.33 4 16.33 3 4 3 7 3、G3+G4=G9 20.50 128 8 40.50 9 9 7 4、G8+G9=G10 105.5 10 7 5、G7+G10=G11 聚类过程结束。作聚类图。 以上介绍的八种系统聚类法,并类的原则和步骤是完全一样的,所不同的是类与类之间的距离有不同的定义,从而得到不同的递推公式。能否将它们更有机地统一起来呢?Wishart在1969年发现它们的递推公式可以统一起来。即 a b 1、关于SPSS SPSS(Statistical Package for Social Science)社会科学统计软件包是一个组合式软件包。它集数据整理、分析过程、结果输出等功能于一身,是世界上著名的统计分析软件之一。 统计分析过程包括相关分析、均值比较与检验、方差分析、回归分析、聚类分析与判别分析、因子分析、非参数检验、生存分析等。 六、用SPSS做聚类 例:这里有20个不同牌子的12盎司啤酒的成分和价格的数据。试用系统聚类法分类。 Analyze Classify Hierarchical Cluster Analysis 转入SPSS 习题: 一个虚拟的例子,设有6个样品,两两间的距离平方如下表,试用各种方法作系统聚类。 3 5 5 2 4 9 6 4 3 12 9 7 3 2 13 10 8 4 1 1 6 5 4 3 2 再转入SPSS 返回练习 一、k-均值法 也称动态聚类法 选凝聚点 初始分类 分类是否合理 最终结果 修改分类 转入SPSS 例:为了了解儿童的生长发育规律,今统计了男孩从出生至11岁每年平均增长的重量如下: 2.1 2.3 1.9 2.0 1.4 1.3 1.5 1.7 1.9 1.8 9.3 增重(kg) 11 10 9 8 7 6 5 4 3 2 1 年龄 试将体重增长划分阶段。 这是一个有序样品聚类的问题,即不打乱原有的数据次序分类,换言之,在这些数据中加入若干间隔,两间隔间的样品即为一类。 这样分类,所有可能的结果要比一般的聚类的可能结果少得多,所以可以得到精确的最优解。 转入求解 * 多元统计分析 转向练习 人类认识世界往往从区别被认识的对象开始,因此,分类学便成了人类认识世界的基础科学。最初,人们主要靠专业知识,靠经验实现分类,随着人们对自然认识的不断加深,分类越来越细,要求越来越高,于是数学被引进分类,形成了数值分类学。随着多元统计分析的发生和发展,数值分类学的若干方法形成了多元统计分析中聚类分析的一个分支。 xi xj xk 一般地,我们有 在系统聚类中,最常见的样本间的距离为欧氏距离,对于广义距离,如Mahalanobis距离,将数据作适当变换后,可变为欧氏距离处理。 为
文档评论(0)