- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三节 K均值聚类分析(K-means Cluster);一 、 系统方法回顾
K均值聚类分析,也称快速聚类或动态聚类法,适用于较大样本时的样品聚类。该法要求资料中聚类指标均为数值变量,可使用欧氏距离(计算两类间的直线距离,只有当所有变量都是数值变量时才可选用)描述样品间的相似度。此外,研究者必须事先知道应该分为多少类,即必须事先指定期望的聚类数K。
; K均值聚类分析的具体步骤:
1.先选择K个初始凝聚点,把每个凝聚点作为此后聚类的核心。
2. 计算样本中每个观测到这些凝聚点的距离,按照距离最近原则将每个观测分类到凝聚点所代表的类中,得到一个初始分类方案。
3. 计算g个初始分类的“重心”——类内各样品观测值的均值作为新的凝聚点
4. 重复步骤2,直到前后两次的类均数变化小于一个给定的临界值或分类方案没有变化为止。
在SPSS中,用户除了可以选择不断迭代更替类中心的聚类方法,也可以选择不要迭代更新类中心,而仅仅根据初始凝聚点聚类,将其作为最终的分类结果。;二、SPSS操作指南
15-2 用耳长(EC)、耳宽(EK)、耳外展距(EZ)、耳指数(EI)和外展指数(AI)5个数值变量对300份样品聚类。
原始数据例15-1
;迭代更新聚类:是在初始凝聚点基础上不断迭代聚类,形成新的凝聚点,直到前后凝聚结果没有变化为止,系统默认;指定数据文件中的观察值作为初始凝聚点;;4 Options 子对话框;输出结果解释
1. 表15-2给出初始类中心的坐标,可以看到,这几个初始凝聚点来自原始数据集中4个观测。;2.表15-3给出迭代聚类过程,可以看到,第11次迭代后,聚类结果收敛。;3. 表15-14、表15-15给出最终的类中心坐标和最终类中心间两两距离。可以看到,最终类中心坐标为各类中的变量均值。;4 表15-16给出各变量的 单因素方差分析表,从方差分析表可以看到,五个聚类变量在各类间的均数差异都有统计学意义,表明对聚类分析均有作用。;5 表15-17 给出最终聚类后的各类的频数。
此外,各观测的聚类结果及各观测到类中心的距离作为新变量保存到了原始数据集中。;三 应用注意事项
1 在运用K均值聚类方法时,研究者必须事先指定期望的聚类数K。因此,当对样品的分类一无所知时,只能尝试地定义不同的聚类数K,或者选用上一节的两步聚类法。
2 K均值聚类方法需要事先指定初始聚类点。初始聚类点可以人为地选择,或人为地先将所有样品分类,计算每一类的均值作为初始凝聚点。
3选用不同的变量对样品进行聚类可以得到不同的聚类结果。用于聚类的变量不同,聚类结果也不同。因此,在不同的准则下,比较聚类结果的优劣是没有意义的。
4 选择不同的聚类方法得到的聚类结果往往也不同,实际工作应结合背景选择适当的聚类结果。;第四节 系统聚类(Hierachical Cluster) ;一 系统方法回顾
系统聚类适用于小样本资料的样品聚类或变量聚类。原始数据可以是数值变量,也可以是多分类变量,或二分类变量,但最好不要有不同类型变量的混合,三种变量可选择不同的距离度量。
系统聚类的具体步骤如下:
1 每个样品/变量各成一类,假设共有n类。
2 计算上述n类的两两类间距离,将距离最小的两类合为一类,这时共有n-1类。
3 计算上述n-1类的两两类间距离,将距离最小的两类合并,这时共有n-2类。
4 重复上述过程,直到所有类都和并为一大类。
5 根据类间距离和实际意义选择适当的分类。
SPSS中,用户可以选择样品聚类或变量聚类,也有多种相似性度量。多种数据标准化的方式可供选择。系统给出聚类图,据此可直观地确定适当的分类。
;二 SPSS操作指南
例15-3 某研究院欲用气相色谱法分析细菌全细胞脂肪酸的含量来研究细菌的分类和鉴定。采用被试菌株共24株,其中空肠弯曲菌8株(标号CJ1~CJ8),结肠弯曲菌3株(标号CC1~CC3),幽门螺杆菌(标号HP1~HP9)和其他肠道杆菌4株(标号XX1~XX4)。分别用气相色谱法测得各菌株的12种脂肪酸的百分含量(变量名X1~X12)。要求依据变量X1~X12对24个菌株进行聚类分析。(原始数据见例15-3.sav);(一)变量设置
在Viriable view中设置13个数值型变量NAME和X1~X12;指定结果输出统计量(Statistic)和统计图(Plot);3 plot子对话框;4 Method 子对话框;5 Save 子对话框;输出结果解释:
1.表15-23输出了有效的样品数和缺失值数以及所占的百分比;2.表15-24输出了系统聚类过程的详细步骤,可以看到,第一步,13和16号样品先聚为一类;第二步,13、16和19号样品聚为一类等;直到最后全部样
您可能关注的文档
最近下载
- 新编机关事业单位工人汽车驾驶员高技师国家题库练习题题附答案.docx VIP
- 智能建造技术课件.pptx VIP
- 无线网络在医院中的应用探究.doc VIP
- 广西地方标准《水生动物增殖放流技术规程》.doc VIP
- 六年级数学下册练习题(2024年整理).doc VIP
- 六年级数学解比例应用题练习题(2024年整理).doc VIP
- 六年级数学解比例应用题练习题(2023年整理).doc VIP
- 煤矿用防爆型自进式管道清洗装置.pdf VIP
- 2025汽车驾驶员高级技师基本理论知识考试题(附含参考答案).pptx
- 黑龙江省齐齐哈尔市克东县克东一中、克山一中等五校联考2025年高三5月仿真考试数学试题含解析.doc VIP
文档评论(0)