- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《应用多元统计分析》
——报告
班级:
学号:
姓名:
聚类分析的案例分析
摘要
本文主要用SPSS软件对实验数据运用系统聚类法和K均值聚类法进行聚类分析,从而实现聚类分析及其运用。利用聚类分析研究某化工厂周围的几个地区的
气体浓度的情况,从而判断出这几个地区的污染程度。
经过聚类分析可以得到,样本6这一地区的气体浓度值最高,污染程度是最严重的,样本3和样本4气体浓度较高,污染程度也比较严重,因此要给予及时的控制和改善。
关键词:SPSS软件 聚类分析 学生成绩
数学模型
聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性。可以根据这些相似性把相似程度较高的归为一类,从而对其总体进行分析和总结,判断其之间的差距。
系统聚类法的基本思想是在这几个样本之间定义其之间的距离,在多个变量之间定义其相似系数,距离或者相似系数代表着样本或者变量之间的相似程度。根据相似程度的不同大小,将样本进行归类,将关系较为密切的归为一类,关系较为疏远的后归为一类,用不同的方法将所有的样本都聚到合适的类中,这里我们用的是最近距离法,形成一个聚类树形图,可据此清楚的看出样本的分类情况。
K均值法是将每个样品分配给最近中心的类中,只产生指定类数的聚类结果。
数据来源
《应用多元统计分析》第一版164页第6题
我国山区有一某大型化工厂,在该厂区的邻近地区中挑选其中最具有代表性的8个大气取样点,在固定的时间点每日4次抽取6种大气样本,测定其中包含的8个取样点中每种气体的平均浓度,数据如下表。试用聚类分析方法对取样点及大气污染气体进行分类。
建立数学模型
运行过程
(一)系统聚类分析
在SPSS界面对上述数据进行系统聚类分析如图1和图2所示,进行最近距离分类。
图1
图2
(二)K均值聚类分析
对数据进行K均值聚类分析,如下图所示:
图3
图4
图5
运行结果
聚类树形图
图6
由图可以看出,将数据进行聚类分析,根据设定的分为了二类到三类。若分为两类则样本6为一类,其他为一类;若分为三类则将样本四分离出来,其他分为一类。
新变量
图7
该图显示将分类结果的新变量,分别为CLU3_1和CLU2_1。可以清楚的看到将数据聚为2类和3类的分类情况。
新变量迭代过程中类中心的变化量
迭代历史记录a
迭代
聚类中心内的更改
1
2
3
4
1
.049
.042
.000
.074
2
.000
.000
.000
.000
a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 .230。
图8
从表中可以看出本次聚类过程共进行了两次迭代。由于我们在Iterate子对话框中设置最大迭代次数为10和收敛判据为0,所以在第二次迭代后,类中心的变化为0,从而迭代停止。
各观测量所属类成员表
聚类成员
案例号
聚类
距离
1
1
.049
2
1
.071
3
4
.074
4
4
.074
5
2
.042
6
3
.000
7
2
.042
8
1
.060
图9
最终类中心表
最终聚类中心
聚类
1
2
3
4
X1
.0580
.0660
.0640
.0360
X2
.0753
.0775
.0720
.1125
X3
.0527
.0455
.1000
.0685
X4
.0660
.2900
.2100
.1650
X5
.0397
.0250
.0280
.1290
X6
.0168
.0385
1.3800
.0360
图10
根据结果(五)和结果(六)可以看出,将8个样本聚为了4类。第一类包括样本1、样本2和样本8,根据图1中聚类1这一列可以看出,这一类为这四类中气体浓度值最低的一类,也就是说该类的环境污染不严重,属于优;第二类包括样本5和样本7,该类气体浓度也是比较低的一类,环境污染有些严重,属于良;第三类包括样本6,这一气体浓度最高,环境污染最严重,属于差;第四类包括样本3和样本4,环境污染较严重,属于中。
新变量
如图所示,QCL_1为分类情况,而QCL_2为所属类中心距离。
结论
通过在SPSS软件中对聚类分析案例的运用将不同的样本聚为不同的类,并算出其间的距离更加清楚方便的将多项不同的样本进行聚类分析,并对其的总体情况进行估计,最后能够得到各类别的气体浓度总体情况,从而判断出环境污染的严重情况。经过这次实验学到了很多东西,遇到的问题也一一得到解决。
5.2酿酒葡萄的等级划分
5.2.1葡萄酒的质量分类
由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支
您可能关注的文档
最近下载
- 第5课+运动塑造更强大脑+课件 2025-2026学年人教版(2024)初中体育与健康八年级全一册.pptx VIP
- YjS现代文学30年第三章.ppt VIP
- 鸿门宴精品说课课件.pptx
- 《传感器技术与应用》课程思政教学案例(一等奖).docx VIP
- 现代文学 30年代散文.ppt VIP
- 中职英语(高教社2021)基础模块2Unit 1 Travel教案.pdf VIP
- 【党纪学习教育】2025年党纪学习教育应知应会知识测试题(附答案).docx VIP
- 药物性牙龈增生 (1)PPT课件.pptx VIP
- 现代文学30′思潮与运动.ppt VIP
- 《GBT3280-2015-不锈钢冷轧钢板和钢带》.pdf
文档评论(0)