- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
11. 聚类分析 11.2 层次聚类法 优缺点 优点 可对变量(样品)或记录进行聚类 变量可为连续或分类变量 提供了丰富的距离测量方法和结果表示方法(树状图) 缺点 由于它要反复计算距离,所以当样本量太大或变量较多时,其运算速度明显较慢。 11.2 层次聚类法 类间距离的定义 不同的类间距离的定义,构成了不同的层次聚类方法 11.2 层次聚类法 Furthest neighbor(最长距离法) Centroid clustering(重心法) 用两个类别的重心间的距离来表示两个类别间的距离 Median clustering(中位数法) Ward’s method(离差平方和法) 思想来自方差分析 使类中的离差平方和较小,而类间的离差平方和较大 基本操作 Analyze → Classify → Hierarchical Cluster 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 例11.1 现搜集了02年中国部分省市的国民经济数据,希望将这些省份归类,从而更好地了解各地区生活水平的差异。 数据的初步分析 5个指标的数量级各不相同,均值100.82 ~ 9377.11,标准差1.39 ~ 7165.65,表明量纲间很强的差异性。 11.2 层次聚类法 需要标准化。 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 11.2 层次聚类法 Pindex _ Revise = 各地区居民消费价格指数-100 11.2 层次聚类法 11.2 层次聚类法 Agglomeration Schedule (凝聚状态表) 第一步中,第3个样本(河北)和第17个样本(湖北)首先合并,其平方欧氏距离为0.111,该小类将在第2步用到; 第二步中,第一步聚成的小类(用该小类中第一个样本的记号3表示)和第12个样本(安徽)合并,其Ward距离为0.246,该小类将在第15步用到。 Dendrogram (树状图、谱系图) 最终类数的确定 11.2 层次聚类法 原则 各类的重心间距离应较大 各类所包含的个体数不应过多 分类数目应符合分析的目的 方法 距离-类数散点图(距离由凝聚状态表获得) 由下图知,随着类的不断凝聚、类数目的不断减少,类间距离在逐渐增大。 在聚成6类之前,类间距离增大的幅度较小,形成极为“陡峭的山峰”,但到3类后,类间的距离迅速增大,形成极为“平坦的碎石路”。 11.2 层次聚类法 根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可找到“山脚”下的“拐点”碎石,将它作为确定分类数目的参考。 所以,本例可考虑聚成2类 ~ 6类,综合考虑分成5类较合适(类不大也不小,Frequency)。 11.2 层次聚类法 11.2 层次聚类法 最终类差异的显著性判断(Means) 各类别在5个变量上差异显著 11.2 层次聚类法 最终类的特征描述 第一类 高生活水平省市 上海、北京、天津等3个直辖市; 人均GDP、城镇居民和农村居民家庭平均每人全年消费支出远高于其它类别。 第二类 人口最多、生活水平一般省市 河北、湖北、安徽、湖南、江苏、山东、四川、河南等8省市; 平均人口远高于其它类别。 11.2 层次聚类法 第三类 人口较少、生活水平一般省市 广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等13省市。 第四类 生活水平较高,平均物价水平降低的省市 浙江、广东、福建等3省市 第五类 人口稀少、生活水平低的省市 青海、宁夏、甘肃、新疆等4省市 11.2 层次聚类法 例11.2 现有7国裁判员以及热心观众分别给300名运动员的平均打分的数据,试分析各裁判员的打分标准是否有相似性。 R型聚类分析 11.2 层次聚类法 由冰柱图知,韩国和法国裁判员的打分相似性最强;其次是中国和罗马尼亚。 若聚成3类,则热心观众自成一类,美国、法国、韩国一类,俄罗斯、中国、罗马尼亚、意大利一类。 若要从上述裁判中选出3名具有代表性的裁判,则应从上述三类中各选一名代表。 即计算决定系数,选择其最大的作为代表。 所以可从热心观众、韩国、俄罗斯中各选一名代表。 11.2 层次聚类法 11.3 K-均值聚类法 基本思想 分析前首先确定具体的类别数,整个分析过程使用迭代的方式进行; 然后起步于一个初始的分类,通过不断的迭代把数据在不同类别间移动,直到最后达到一定的标准为止。 整个计算过程中不需要存储基本数据或者距离矩阵,因此不会出现多个互相嵌套的聚类结果,而计算速度也要快得多。 11.3 K-均值聚类法 K-Means聚类法的优缺点 优点 速度明显快于层次聚类,被称为快速聚类法。 事先指定了类
您可能关注的文档
- 《傅雷家书两则》 -1课件.ppt
- 《高等学校财务制度》修订总体情况课件.ppt
- 《管理信息系统》-2 信息与系统集成课件.ppt
- 《面对诱惑》——作文解读修改版课件.ppt
- 《女职工劳动保护特别规定》解读-石玉成课件.ppt
- 《生活与哲学》第一单元生活智慧与时代精神-新课件.ppt
- 《水煮三国》幻灯片.ppt
- 《统计学》期末复习课件.ppt
- 《温病条辩》叙幻灯片.ppt
- 《药物化学基础-中职药剂专业》第1章:绪论课件.ppt
- 私募基金法律监管体系的困境与突破:基于实践与比较法的分析.docx
- 补肾活血方对人滑膜细胞Wnt_β - catenin信号通路的调控机制探究.docx
- 揭秘“大胡红”牡丹植株:营养状况与培育策略.docx
- 酶法制备母乳脂替代脂:工艺探索与功能解析.docx
- 内蒙古道图嘎查七星湖牧民新村禁牧政策执行与运行机制深度剖析.docx
- 呼和浩特地区老年髋部骨折流行病学特征、影响因素及康复策略研究.docx
- 化工园区环境风险分级管理与控制系统平台的深度剖析与创新实践.docx
- 集团化经营、产权性质对企业过度投资的影响机制与实证研究.docx
- 政府调控与房地产发展:政策效应、市场响应与协同发展研究.docx
- 燃煤电厂脱硝改造成本解构与补偿电价机制的深度剖析.docx
最近下载
- 海南省海口市(新版)2024小学语文人教版小升初真题(巩固卷)完整试卷(含答案).docx VIP
- 2025-2030中国医学影像设备行业深度调研及投资前景预测研究报告.docx
- 公安院校公安专业本专科招生政治考察表(2022年西藏报考公安院校公安专业招生).doc VIP
- 劳动争议管理制度.docx VIP
- 2024年秋季新北师大版七年级上册数学全册导学案.docx
- 2020-2021学年北京市朝阳区北京版四年级下册期末测试英语试卷.docx VIP
- 骨关节感染患者的护理(外科护理).pptx
- 波形护栏质量检验评定表、报告单.pdf VIP
- 大学《传感器原理及应用》习题解析及期末考试真题.docx VIP
- 基于PLC控制的泡沫切割机-毕业论文.doc VIP
文档评论(0)