- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 数据分类与降维技术配套教材:统计数据分析方法与技术经济管理出版社2014 第八章 数据分类与降维技术 8.1聚类分析 8.2判别分析 8.3主成分分析 8.4因子分析 8.1聚类分析 8.1.1聚类分析的含义及原理 8.1.2样品或变量相似程度的度量 8.1.3系统聚类法 8.1.4聚类分析案例及SPSS实现 8.1.1聚类分析的含义及原理 1、聚类分析的含义与基本原理 含义:聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,将大量的样品(或变量)依据数据间的相似性归为不同类的一种数据分类方法。 原理:根据已知数据,通过计算测定各样品(或变量)之间的相似程度,根据某种准则,将众多样品(或变量)归为不同类的一种多元统计分析方法,聚类的结果要使同一类样品(或变量)间的差别较小,而类与类之间的差别较大。 8.1.1聚类分析的含义及原理 2、聚类分析的特点 (1)聚类分析属于探索性分类方法,通过分析数据的内在特点和规律,根据个体或变量的相似性对其进行分类。 (2)聚类分析适用于没有先验知识的分类。 (3)聚类分析得到的“类”并不存在一个明确的概念,需要研究者结合研究目的和任务加以概括。 (4)聚类分析适合处理多个变量决定的分类。 8.1.1聚类分析的含义及原理 3、聚类分析的类型 (1)根据聚类方法不同分:系统聚类与快速聚类 系统聚类又称分层聚类,其基本思想是:先将每个样品(或变量)各看成一类,然后规定类与类之间的距离计算准则,选择距离最小的两个样品(或变量)合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品(或变量)合为一类。 快速聚类是先确定所分的类别数K,并确定K个样品作为K个类别的初始聚类中心,依次计算每个样品到K个聚类中心的距离,根据距离最近原则将所有样品分到事先确定的K个类别中,以此形成K个类别,计算各类别中每个变量的均值,以均值点作为新的K个类别的中心,重复上述过程,反复迭代直至满足终止聚类条件为止。 8.1.1聚类分析的含义及原理 (2)根据分类的对象不同分:Q型聚类与R型聚类 Q型聚类是对样品进行分类。一个样品有多个变量属性描述,对于观测到的多个样品,根据样品的变量特征,将特征相似的样品归为一类。 R型聚类是对变量进行分类。反映研究对象特点的变量有许多,有些变量之间存在相互关联,通过聚类,可以找出相互独立又有代表性的主要变量,为进行其他分析提供便利。 8.1.2 样品(或变量)间相似程度的度量 样品(或变量)之间的亲疏关系由相似性描述,通常用距离描述样品间的相似性,用相似系数度量变量间的相似性。 1、样品间距离的度量 假定有n个样品,每个样品有p个指标描述其性质,形成p维向量,n个样品就形成了p维空间中的n个点。用dij(dij≥0)度量第i个样品与第j个样品的距离,由此得到一个对称的距离矩阵D(n×n): 8.1.2 样品(或变量)间相似程度的度量 其中距离的计算公式主要有如下几种: (1)Euclidean距离 (2)Euclidean平方距离 (3)Chebychev距离 (4)Minkowski距离 8.1.2 样品(或变量)间相似程度的度量 (5)Lance距离 (6)Mahalanobis距离 8.1.2 样品(或变量)间相似程度的度量 8.1.2 样品(或变量)间相似程度的度量 2、变量间相似性的度量 假定有p个变量,对其进行了n次观测。用rij(|rij|≤1)表示n次观测中第i个变量和第j个变量之间的相似系数。对所有变量两两间计算相似系数,同样得到一个对称的相似系数矩阵R(p×p): 相似系数rij的常用计算方式有夹角余弦和相关系数两种。 8.1.2 样品(或变量)间相似程度的度量 (1)夹角余弦 rij为变量xi的观测向量(x1i,x2i,…,xni)′和变量xj的观测向量(x1j,x2j,…,xnj)′之间夹角的余弦函数。 8.1.2 样品(或变量)间相似程度的度量 (2)Pearson相关系数 如果变量经过Z得分标准化处理,则两变量间的夹角余弦等于相关系数。相关系数在-1到1之间。 8.1.3系统聚类法 1、系统聚类方法的步骤 (1)将n个样品各作为一类,形成n类; (2)计算n个样品两两之间的距离,构成距离矩阵; (3)基于上一步的样品距离公式计算类与类之间的距离。把距离最近的两类合并成一类,总类数减少1; (4)重复上一步,计算类与类之间的距离。把距离最近的两类合并成一类,总类数减少1,直至只有一类; (5)画聚类图,解释类与类之间的距离。 8.1.3系统聚类法 2、类与类之
文档评论(0)