- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
10.7 两步法聚类 两步法聚类又称两阶段聚类,它与系统聚类相似,是揭示数据所蕴含的自然组别的一种探索性分析方法。 两步法聚类的特点 (1)聚类变量可以是连续变量,也可以是分类变量。两步法聚类充分考虑到这两种变量的不同性质,采用对数似然距离来衡量相似性。 (2)它能自动确定出类的个数。 (3)能够有效地分析大数据集。 两阶段聚类算法的两个阶段 第1步:建立一个聚类特性树。 第2步:应用凝聚算法对聚类特性树的叶节点进行分类。 两步法的距离度量 两步法的距离度量有两种 (1)对数似然(SPSS 翻译为对数相似值):这里由于聚类指标中含有分类变量,所以只能选择该项。 (2)欧式距离(Euclidean):当聚类指标不含有分类变量时可以选择该距离。 聚类数量 (1)自动确定:可以选择自动确定,这里可以限定类个数的上限。默认最多15个类。也可以据需要修改类个数的最大值。 (2)指定固定值:如果很有把握,那么你可以输入你想要的类个数。 聚类准则 有AIC和BIC两个准则,这两个模型选择准则在选择模型方面基本类似,都是综合考虑样本数和模型的复杂程度。AIC或者BIC的值越小,模型越好。 两步法案例分析 数据文件Twosteps_car.sav 选择【分析】→【分类】→【两步聚类】 两步法聚类选项设置(1) 两步法聚类选项设置(2) 评估字段:评估字段不用于聚类过程,但是可以用它们来描述两步法生成的类的特征。 两步法聚类的模型摘要 两步法模型视图 两步法模型视图 两步法模型视图 作业 SPSS数据分析教程 —《SPSS数据分析教程》 第10章 聚类分析 目录 10.1 聚类分析简介 10.2 个案间的距离 10.2.1 定距数据(Scale Mearsurement)距离定义方式 10.2.2 分类数据的频数数据(Count) 10.2.3 二分类数据 10.3 类之间的距离 10.4 系统聚类算法过程 10.5 系统聚类案例 10.6 K-均值聚类 10.6.1 K-均值法简介 10.5.2 K-均值法案例 10.7 两步法聚类 10.7.1 两步法简介 10.7.2 两步法案例分析 10.8 聚类分析注意事项 本章学习目标 理解聚类分析的基本概念; 了解个案之间距离的定义方式; 了解类之间距离的定义方式; 掌握系统聚类方法; 掌握两步法聚类方法; 掌握K均值聚类方法。 10.1 聚类分析简介 根据对象的某些属性把它们分到一些组中,使得同组内的对象尽可能地相似,不同组中的对象尽可能地不一样,即所谓的聚类分析。 聚类分析方法被称为“无监督的分析方法”,意即没有因变量。而另外一种分类的方法是判别分析,它是把样本归入到已知的事先已经确定下来的类中去, 它有因变量(即事先确定的类别),是“有监督的分析方法”。 聚类分析不必事先知道分类对象的结构,从一批样品的多个观测指标中,找出能度量样品之间或指标(变量)之间相似程度或亲疏关系的统计量,构成一个对称相似性矩阵,并按相似程度的大小,把样品或变量逐一归类。 根据对样品聚类还是对变量聚类,聚类分析分Q型聚类和R型聚类。对变量的聚类称为R型聚类,而对样品(即观测值)聚类称为Q型聚类。通俗讲,R型聚类是对数据中的列分类,Q型聚类是对数据中的行分类。 SPSS Statistics提供了3种聚类方法,它们是系统聚类法(又称层次聚类)、K-均值聚类(又称快速聚类法)和两步法聚类。 10.2 个案间的距离 定距数据距离定义方式 欧式(Euclidean)距离 平方欧式距离 余弦距离 皮尔逊(Pearson)相关性距离 切比雪夫(Chebychev)距离 块(Block)距离 闵考斯基(Minkowski)距离 幂(Power)距离 10.2.2 分类数据之间的距离 卡方度量 Phi方度量 10.3 类之间的距离 SPSS提供了7种计算两个类距离的方法。 组间连接法(Between-groups Linkage) 组内连接法(Within-Groups Linkage) 最近邻元素法(Nearest Neighbor) 最长距离法(Furthest Neighbor) 质心聚类法(Centroid Clustering) 中位数聚类法(Median Clustering) 离差平方和法(Ward’s Method) 10.4 系统聚类算法过程 系统聚类的步骤 第1步:数据标准化。把原始数据标准化得到标准化数据矩阵。 第2步:计算相似系数矩阵。这里以余弦距离为例。计算Q型聚类任意两个样品xj和xk的相似系数矩阵。 第3步:选出有最大相似系数的样品组 。 第4步:把该组样品加权平均,这样就形成了一个新的组合样品 。 第5步:用新的样品
您可能关注的文档
- 3.2 以种植业为主的农业地域类型学案.教师版.doc
- 3.3.3__点到直线的距离__3.3.4__两条平行直线间的距离陈.ppt
- 3单元第1课时 整十数乘整十数及两位数乘整十数的口算.doc
- 4.9三角函数y=Asin(ωx+φ)的图象及变换.ppt
- 5.1电气控制线路图、接线图与布置图的识读.doc
- 6 资本主义列强侵华与中国的反动政府统治史.doc
- 22.2.4一元二次方程解法--因式分解法_课件_1.ppt
- 26.1.4二次函数的图像新课件.ppt
- 2014年二模试卷及答案(word).doc
- 2014年高一数学必修1考试题.doc
- 2025年金肯职业技术学院单招职业适应性测试题库带答案.docx
- 2025年钦州幼儿师范高等专科学校单招综合素质考试题库完美版.docx
- 2025年钟山职业技术学院单招职业适应性考试题库参考答案.docx
- 2025年金华职业技术学院单招职业技能测试题库附答案.docx
- 2025年闽南理工学院单招职业技能测试题库审定版.docx
- 2025年闽南理工学院单招综合素质考试题库审定版.docx
- 2025年闽南理工学院单招职业倾向性考试题库汇编.docx
- 2025年闽南理工学院单招职业倾向性考试题库推荐.docx
- 2025年闽北职业技术学院单招综合素质考试题库1套.docx
- 2025年长沙轨道交通职业学院单招职业技能考试题库一套.docx
最近下载
- 2023年青海省海东地区循化县清水乡招聘社区工作者真题及参考答案详解.docx VIP
- 售电培训课件.pptx VIP
- 脊髓损伤康复临床路径.docx VIP
- 2023年青海省海东地区民和县杏儿乡招聘社区工作者真题参考答案详解.docx VIP
- 2023年青海省海东地区民和县西沟乡招聘社区工作者真题及参考答案详解1套.docx VIP
- 气道净化护理(2023年中华护理学会团体标准).pptx VIP
- 理正软件勘察说明书.doc VIP
- 部编版七年级上册语文《杞人忧天》导学案.pdf VIP
- 2023年青海省海东地区民和县北山乡招聘社区工作者真题及参考答案详解.docx VIP
- 各班护理工作职责.pptx VIP
文档评论(0)