- 1、本文档共167页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[经济学]第7章 聚类分析
第7章 聚类分析 (Cluster Analysis) 聚类分析是根据研究对象的特性,对样本或变量进行定量分类的一种多元统计方法。 主要内容 7.1 聚类分析概述 7.2 分类统计量 7.3 系统聚类法 7.4 用SPSS进行聚类分析 聚类的目的 根据已知数据,计算各观察个体或变量之间亲疏关系的统计量。在没有先验知识的情况下自动进行分类的方法,聚类分析根据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。 聚类分析的应用例子 不同地区城镇居民收入和消费状况的分类研究。 区域经济及社会发展水平的分析及全国区域经济综合评价 市场营销中按照消费者的特征对消费者分类,按照产品特征对产品分类,从而进行市场分层、建立目标市场 为多种动物群体——昆虫、哺乳动物和爬行动物的区分建立生物分类学 动物界——节肢动物门——昆虫纲——膜翅目——细腰亚目——蜜蜂科——蜜蜂 上述分类的原则:依据学生成绩的差距,差距较小的为一类 分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果. 7.1 聚类分析概述 聚类分析是根据对象的特性对其进行定量分类的一种多元统计方法 ,是从数值分类学中分离出的一种科学的分类法。 常用的聚类方法有系统聚类法、模糊聚类法、动态聚类法、有序样本聚类法、分解法、加入法等等。 聚类分析概述 聚类分析是将数据中的观测值或变量按相似度加以归类在各个类别内 这些类不是事先给定的 而是直接根据数据的特征确定的 聚类的原则是“组(类)内同质,组(类)间差异” 类别内部的“差异”尽可能小 而类别之间的“差异”尽可能大 聚类分析特点 聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据只有原始数据,可能事先没有任何有关类别的信息可参考 严格地,聚类分析并不是纯粹的统计技术,不象其他多元分析,需要从样本去推断总体 一般不涉及统计量分布,也不需显著性检验 聚类分析更象是一种建立假设的方法,而对相关假设的检验还需要借助其他统计方法 聚类分析注意 聚类分析主要用于探索性研究,其分析结果可提供多个可能的解,最终解的选择需要研究者的主观判断和后续分析 聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终解都可能产生实质性的影响 不管实际数据中是否存在不同的类别,利用聚类分析都能得到分成若干类别的解 聚类分析的分类 ?在实际问题中,收集n个样品,对每一个样品测量 p 个指标: Q型聚类 根据p个指标值对n个样品进行分类 如,根据多项经济指标(指标)对不同的地区(样品)进行分类 R型聚类 根据n个样品对p个指标进行分类 根据不同地区的样本数据对多个经济指标进行分类 聚类分析的基本步骤 (1) 选择描述事物对象的变量(指标)。 (2) 建立样品数据资料矩阵。 (3) 确定数据是否要标准化。 (4) 确定表示对象距离或相似程度的统计量。 (5) 选择适当的聚类方法,进行聚类。 分层聚类 (一)思路:聚类过程具有一定的层次性 以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类 其次,将最“亲密”的个体聚成一小类 然后,将最“亲密”的小类或个体再聚成一类 重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止 可见,随着聚类的进行,类内的“亲密”性在逐渐减低 ——一旦个案(变量)被聚为一类,以后分类结果不会改变 分层聚类 (一)思路 以分解的方式聚类 首先,所有个体都属于一类 其次,将大类中最“疏远”的小类或个体分离出去 然后,分别将小类中最“疏远”的小类或个体再分离出去 重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止 可见,随着聚类的进行,类内的亲密性在逐渐增强 7.2 分类统计量 数据资料矩阵 为消除各个变量所用量纲的影响,以保证各变量在分析中处于同等地位,对数据资料矩阵做标准化处理 距离和相似系数 距离:此处我们将每个样品看成是m维空间中的一个点,并在空间中定义距离。 根据样本间距离的远近将样本进行划分。 闵氏(Minkowski )距离 二维空间欧式距离 马氏(Mahalanobis)距离 切比雪夫距离(CHEBYCHEV) 相似系数 ?以cij表示第i个指标与第j个指标之间的相似系数,要满足: |cij|≤1 ,对一切i,j cij=+1 ,当且仅当 xi=αxj cij= cji,对一切i,j Pearson相关系数 夹角余弦与相关系数示意图 应注意的问题 (1)在聚类分析中,应根据不同的目的选用不同的指标, 例如选拔运动员所用的指标(身体形态、身体素质、心理素质、生理功能等)与分课外活动小组所选用的指标不相同,对啤酒按价格分类与按成分分类所用的指
您可能关注的文档
- [工作范文]QCC品管圈简介.ppt
- [医药卫生]11、OTC业务代表培训.ppt
- [管理学]东北财经大学 管理学10.ppt
- [药学]人参皂苷-α-鼠李糖苷酶的分离纯化及真菌RNA提取的研究.pdf
- [初三政史地]感受大自然之美.ppt
- [建筑]建筑工程预算实训教程201110更新.pdf
- [司法考试]2010年司法考试分科训练之民事诉讼100题答案.doc
- [科学]八年级科学上电路探秘.doc
- [理学]第十一章荧光分析法.ppt
- [理学]塑料材料基础知识简介.ppt
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)