- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章 SPSS的聚类分析选编
第九章 SPSS的聚类分析;聚类分析的意义;聚类分析中“亲疏程度”的度量方法;个体间的差异程度;定距型变量个体间距离的计算方式;定距型变量个体间距离的计算方式;定距型变量个体间距离的计算方式;计数变量个体间距离的计算方式;二值(Binary)变量个体间距离的计算方式;二值(Binary)变量个体间距离的计算方式;二值(Binary)变量个体间距离的计算方式;聚类分析的几点说明;聚类分析的方法;层次聚类;层次聚类;个体与小类、小类与小类间“亲疏程度”的度量方法;个体与小类、小类与小类间“亲疏程度”的度量方法;D商厦与E商厦的距离最小,首先聚为一个小类
A与这个小类的距离如何衡量?
;以D(A,(D,E))为例:
最短距离 (nearest neighbor):
该个体与小类中每个个体距离的最小值。
D(A,(D,E))=26.907
最长距离 (furthest neighbor)
该个体与小类中每个个体距离的最大值。
D(A,(D,E))=30.414
组间平均链锁距离(between-groups linkage)
该个体与小类中每个个体距离的平均值
D(A,(D,E))=(26.907+30.414)/2
组内平均链锁距离(within-group linkage)
该个体与小类中每个个体距离以及小类内各个体间距离的平均值
D(A,(D,E))=(26.907+30.414+3.606)/2;重心距离(Centroid Clustering)
该个体与小类的重心点的距离
小类的重心点通常是由小类中所有样本在各个变量上的均值所确定的数据点
个体与重心点的距离定义为:
式中:r是由p,q两个体合并成的一个小类;n为样本量;离差平方和法
原则:聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类。
例如,有A, B, C三个小类。如果(A, B)小类内的离差平方和小于(A, C)或(B, C)小类内的离差平方和,那么A, B应合并为一小类。
基本步骤
首先各个体自成一类,然后逐渐凝聚成小类。随着小类的不断凝聚,类内的离差平方和必然不断增大。应选择使类内离差平方和增加最小的两类凝聚,直到所有个体合并成一类为止;层次聚类的基本操作; 2、把参与层次聚类分析的变量选到Variable(s)框中。
3、把一个字符型变量作为标记变量选到Label Cases by框中,它 将大大增强聚类分析结果的可读性。
4、在Cluster框中选择聚类类型。其中Cases表示进行Q型聚类(默认类型);Variables表示进行R型聚类。
5、在Display框中选择输出内容。其中Statistics表示输出聚类分析的相关统计量;Plot表示输出聚类分析的相关图形
6、单击Method按钮指定距离的计算方法;
Measure框中给出的是不同变量类型下的个体距离的计算方法。其中Interval框中的方法适用于连续型定距变量;Counts框中的方法适用于品质型变量;Binary框中的方法适用于二值变量。
Cluster Method框中给出的是计算个体与小类、小类与小类间距离的方法;7、如果参与聚类分析的变量存在数量级上的差异,应在Transform Values框中的Standardize选项中选择消除数量级差的方法。并指定处理是针对变量的还是针对样本的。By variable表示针对变量,适于 Q 型聚类分析;By case 表示针对样本,适于R型聚类分析
8、单击Statistics按钮指定输出哪些统计量;
Agglomeration schedule表示输出聚类分析的凝聚状态表;Proximity matrix表示输出个体间的距离矩阵
Cluster Membership框中,None表示不输出样本所属类,Single Solution表示指定输出当分成n类时各样本所属类,是单一解。Range of solution表示指定输出当分成m至n类(m小于等于n)时各样本所属类,是多个解;
上表中,第一列表示聚类分析的第几步;第二、三列表示本步聚类中哪两个样本或小类聚成一类;第四列式个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非0表示由第n步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到。;9、单击Plot按钮指定输出哪种聚类分析图。
Dendrogram选项表示输出聚类分析树形图;在Icicle框中指定输出冰挂图,其中,All clusters表示输出聚类分析每个阶段的冰挂图,Specified range of clusters表示只输出某个阶段的冰挂图,输入从第几步开始,到第几步结束,中间间隔几步;
在Orientation框中指定
您可能关注的文档
最近下载
- 中文分级阅读测评系统.pdf VIP
- 油气勘探风险评价与决策技术:方法、应用与创新.docx VIP
- 六朝古都齐聚首 烟花三月下扬州.doc VIP
- 深圳市建设工程消防设计疑难解析.doc VIP
- 铜绿假单胞的治疗药物选择.ppt VIP
- ASCO300系列开路切换自动转换开关ATS.doc VIP
- ASCO300系列.pdf VIP
- 项目一集控运行职业岗位认知课件.pptx VIP
- Nordic 系列:nRF52840 (基于 Cortex-M4)_(25).nRF52840的硬件测试.docx VIP
- Nordic 系列:nRF52840 (基于 Cortex-M4)_(16).nRF52840的硬件设计指南.docx VIP
文档评论(0)