K-均值聚类法实例解析.pdf

下载文档 降价啦

30
0
约2.58千字
约 4页
2021-08-15 发布于湖南
举报
版权申诉
保障服务

K-均值聚类法实例解析.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

例：为了更深入了解我国环境的污染程度状况，现利用 2009 年数据对全国 31 个省、自治区、直辖市进行聚类分析。解：现在要分析我国各个地区的环境污染程度，案例中选择了各地区 “工业废气排放总量” 、 “工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况，同时选择了北京等省市的数据加以研究。这个问题属于典型的多元分析问题，需要利用多个指标来分析各省市之间环境污染程度的差异。因此，可以考虑利用快速聚类分析来研究各省市之间的差异性，具体操作步骤如下。 1) 打随书光盘中的数据文件 9-2.sav ，选择菜单栏中的【 A nalyze （分析）】→【Classify （分类）】→【 K-Means Cluster （K 均值聚类）】命令，弹出【 K-Means Cluster Analysis （K 均值聚类分析）】对话框。 2) 在左侧的候选变量列表框中将 X1、X2 和 X3 变量设定为聚类分析变量，将其添加至【Variables （变量）】列表框中；同时选择 Y 作为标识变量，将其移入【 Label Cases by （个案标记依据）】列表框中。 3) 在【 Number of Clusters （聚类数）】文本框中输入数值“ 3”，表示将样品利用聚类分析分为三类，如下图所示。 4) 单击【 Save （保存）】按钮，弹出【 K-Means Cluster Analysis：Save （K 均值聚类分析：保存）】对话框；勾选【Cluster membership （聚类新成员）】和【Distanc e from cluster center （与聚类中心的距离）】复选框，表示输出样品的聚类类别及距离，其他选项保持系统默认设置，如下图所示，单击【 Continue （继续）】按钮返回主对话框。 5) 单击【 Options （选项）】按钮，弹出【 K-Means Cluste r Analysis：Options （K 均值聚类分析：选项】对话框；勾选【 Statistics （统计量）】选项组中的复选框，其他选项保持系统默认设置，如下图所示，单击【 C ontinue （继续）】按钮返回主对话框，单击【 OK （确定）】按钮完成操作。实例结果及分析（1）快速聚类分析的初始中心 SPSS软件首先给出了进行快速聚类分析的初始中心数据。由于这里是要求将样品分为三类，因此软件给出了三个中心位置。但是，这些中心位置可能在后续的迭代计算中出现调整。（2 ）迭代历史表下表显示了快速聚类分析的迭代过程。可以看到，第一次迭代的变化值最大，其后随之减少。最后第三次迭代时，聚类中心就不再变化了。这说明，本次快速聚类的迭代过程速度很快。（3 ）聚类分析结果列表通过快速聚类分析的最终结果列表可以看到整个样品被分为以下三大类。第一类：北京、天津、山西、内蒙古等 20 个地区。这些地区工业废水、废气及二氧化硫的排放总量相对最低。第二类：河北、福建、河南、湖北、湖南、广西和四川。它们的污染程度在所有省份中位居中等水平。第三类：江苏、浙江、山东和广东。这些地区的工业废水、废气及二氧化硫排放总量是最高的，因此环境污染也最为严重。表中最后一列显示了样品和所属类别中心的聚类，此表中的最后两列分别作为新变量保存于当前的工作文件中。