- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
分析流程
数据源:
测试数据(1).xlsx
算法配置:
算法:聚类分析(K-Means)
分析结果:
暂无数据
分析步骤
1.根据字段进行聚类类别差异性分析。
2.根据聚类汇总分析各聚类类别的频数。
3.根据数据集聚类标注可以知道每一个样本数据被分到哪个类别。
4.聚类中心坐标可以用于分析各样本与中心点的距离。
5.对分析进行综述。
详细结论
输出结果1:聚类数对比图(肘部法则)
图表说明:
该图用于选择较好的聚类数量,横坐标是聚类个数,纵坐标是K均值聚类的损失函数是所有样本到类别中心的距离平方和,也就是误差平方和(值越小说明聚类效果越好)。可以通过“坡度趋于平缓”的找出最佳的类簇数量。
输出结果2:字段差异性分析
聚类类别(平均值±标准差)
F
P
类别3(n=2220)
类别1(n=1682)
类别2(n=1199)
洪水概率
0.498±0.017
0.559±0.027
0.439±0.024
10476.248
0.000***
注:***、**、*分别代表1%、5%、10%的显著性水平
图表说明:
上表展示了定量字段差异性分析的结果,包括均值±标准差的结果、F检验结果、显著性P值。
●分析每个分析项的P值是否显著(P0.05)。
●若呈显著性,拒绝原假设,说明两组数据之间存在显著性差异,可以根据均值±标准差的方式对差异进行分析,反之则表明数据不呈现差异性。
智能分析
方差分析的结果显示:
对于变量洪水概率,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,说明变量洪水概率在聚类分析划分的类别之间存在显著性差异;
输出结果3:聚类汇总
聚类类别
频数
百分比%
聚类类别_1
1682
32.974
聚类类别_2
1199
23.505
聚类类别_3
2220
43.521
合计
5101
100.0
图表说明:
上表展示了模型聚类的结果,包括频数,所占百分比。
智能分析
聚类分析的结果显示,聚类结果共分为3类,
聚类类别_1的频数为1682,所占百分比为32.974%;
聚类类别_2的频数为1199,所占百分比为23.505%;
聚类类别_3的频数为2220,所占百分比为43.521%。
输出结果4:聚类汇总图
图表说明:
上图以可视化的形式展示了模型聚类的结果,包括频数、所占百分比。
输出结果5:数据集聚类标注
聚类种类
洪水概率
类别2
0.445
类别2
0.45
类别1
0.53
类别1
0.535
类别2
0.415
类别2
0.44
类别2
0.46
类别1
0.595
类别3
0.505
类别2
0.455
类别3
0.515
类别3
0.48
类别3
0.47
类别3
0.51
类别3
0.485
图表说明:
上表格展示了模型聚类结果的部分数据聚类标注,其为预览结果,只显示综合排序的前15条数。
输出结果6:聚类中心点坐标
聚类种类
中心值_洪水概率
1
0.5594976218787158
2
0.4390075062552127
3
0.4975563063063063
图表说明:
上表展示了部分(or全部)模型聚类中心的数据,全部数据可点击右上角下载excel。
输出结果8:评价指标
轮廓系数
DBI
CH
0.528
0.574
10476.248
图表说明:
●轮廓系数:对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],同类别样本距离越相近不同类别样本距离越远,分数越高,聚类效果越好。
●DBI(Davies-bouldin):该指标用来衡量任意两个簇的簇内距离之后与簇间距离之比。该指标越小表示聚类效果越好。
●CH(Calinski-HarbaszScore):通过计算类内各点与类中心的距离平方和来度量类内的紧密度(分母),通过计算类间中心点与数据集中心点距离平方和来度量数据集的分离度(分子),CH指标由分离度与紧密度的比值得到,CH越大表示聚类效果越好。
参考文献
[1]?ScientificPlatformServingforStatisticsProfessional2021.SPSSPRO.(Version1.0.11)[OnlineApplicationSoftware].?Retrievedfrom.
[2]?Saroj,Kavita.Review:studyonsimplekmeanandmodifiedKmeanclusteringtechnique[J].InternationalJournalofComputerScienceEngineeringandTechnology,2016,6(7
文档评论(0)