- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
一、K-means聚类基础概念
1.1聚类分析分类
聚类分析分为两大类:
-Q型聚类:对样本进行聚类(如对34个省市地区按经济发展指标聚类)
-R型聚类:对指标变量进行聚类(如对20个经济发展指标进行聚类)
K-means聚类属于Q型聚类,专门用于对样本进行分组。
1.2数据类型与聚类方法选择
在SPSSAU(在线SPSS)中,根据数据类型可选择不同聚类方法(聚类分析时将变量拖拽到对应分析框中,SPSSAU将自动进行匹配的聚类分析):
-定量数据:K-means聚类
-定类数据:K-modes聚类
-混合数据:K-prototypes聚类
二、K-means聚类原理
2.1基本特点
基于距离的聚类方法
初始聚类中心选择具有随机性
默认使用标准化欧式距离计算
不同量纲数据需提前标准化(SPSSAU自动处理)
三、实例操作:鸢尾花数据聚类
3.1案例背景
数据:150株鸢尾花样本
变量:花萼长、花萼宽、花瓣长、花瓣宽(单位均为mm)
已知分类:3类(钢毛鸢尾、变色鸢尾、弗吉尼亚鸢尾)
3.2SPSSAU操作步骤
数据准备
将四个性状变量拖入分析项(定量)框
单位统一可不标准化(SPSSAU默认会处理)
确定K值
专业已知分为3类,直接选择K=3
若不确定K值,可通过以下方法确定:
肘部法则(观察SSE下降拐点)
轮廓系数法(选择轮廓系数最大的K值)
遍历多个K值比较结果
执行聚类
点击开始分析按钮
系统自动输出聚类结果
3.3结果解读
聚类分布
第一类:56个样本(37.33%)
第二类:44个样本(29.33%)
第三类:50个样本(33.33%)
分布均匀,无过大或过小类别
变量重要性
花瓣长(重要性=1)
花瓣宽(0.8)
花萼长(0.5)
花萼宽(0.3)
若某变量重要性极低(如0.1),可考虑删除后重新聚类
方差分析
所有变量p值0.01
表明三类在各性状上均有显著差异
说明聚类效果良好
3.4类别特征分析
可视化分析
使用SPSSAU的象限图功能
将聚类结果变量拖入分组项
四个性状变量拖入分析项
特征总结
第三类:花瓣长和宽均较小(钢毛鸢尾特征)
第二类:花萼长和宽较大
第一类:介于中间状态
四、K值确定方法详解
4.1肘部法则
计算不同K值下的SSE(误差平方和)
绘制SSE-K曲线
选择曲线拐点处的K值
4.2轮廓系数法
计算不同K值的平均轮廓系数
选择系数最大的K值
轮廓系数范围[-1,1],越接近1效果越好
4.3专业经验法
根据业务需求确定类别数
参考已有研究或领域知识
五、注意事项
数据预处理
异常值处理
缺失值处理
量纲统一(SPSSAU自动标准化)
结果验证
多次运行观察稳定性
结合业务知识判断合理性
局限性
对初始中心敏感
适合凸形分布数据
需预先指定K值
通过SPSSAU(网页SPSS)进行K-means聚类分析,可快速获得专业可靠的聚类结果,帮助研究者发现数据中的自然分组模式。
文档评论(0)