网站大量收购独家精品文档,联系QQ:2885784924
  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
系统聚类

聚类分析(Cluster Analysis) 内容提要: 聚类分析简介、聚类分析分类统计量、系统聚类法、案例分析及SPSS实现 聚类分析简介 一、导言 聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引入分类学中,于是从数值分类学中逐渐分离出聚类分析这个新的分支。 二、聚类分析的概念 聚类分析是根据研究对象的特征,对样品或者变量进行分类的一种多元统计分析方法。在进行聚类分析之前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。 聚类分析的目的是根据对象间的相关程度大小进行类别的聚合,要求同一类中的个体有较大的相关性,不同类中的个体差异很大。 三、聚类分析的分类 按照聚类分类的对象,聚类分析可以分为样本聚类(也称Q-型聚类分析)和变量聚类(也称R-型聚类)两种。 按照聚类原理的不同,聚类分析可分为系统聚类法、动态聚类法、模糊聚类法等,其中系统聚类方法是最常用最基本的一种聚类分析方法。 注: (1)系统聚类法和模糊聚类法既可以用于样本聚类,也可以用于变量聚类;而动态聚类法只能用于对样本聚类不能用于对变量聚类。 (2)样本量较小时,一般用系统聚类;样本量大时应该用动态聚类。 聚类分析分类统计量 要进行定量分类首先必须确定一些划分类型的数量指标,也就是要定出一些能够反映样本(或变量)相关(或相似)程度的数量指标,这些数量指标就叫作分类统计量。 一、距离系数 设每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。 用dij表示第i个样本与第j个样本之间的距离。 常见的距离有: 绝对值距离: 欧式距离 平方欧式距离 切比雪夫距离 明考斯基距离(明氏距离) 当q=1,2时,为绝对值、欧式距离. 二、相关系数 任意两个变量xi和xj之间的相关系数 根据m个变量两两间的相关系数构成相关矩阵 R为对称矩阵,主对角线上的元素为1, rij越接近于1或-1,则表明变量i与j相关程度越高,越密切;rij越趋近于0,变量i和j的相关程度越小。 三、夹角余弦 夹角余弦是从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量 利用上式计算出所有样品两两间的相关系数,构成一个对称的系数矩阵 该矩阵主对角线上的元素为1, 。 值越接近于1或-1,第j、k两个样品越相关。反之, 越趋近于0,相关性越小。 四、分类统计量的选取原则 同一批数据采用不同的分类统计量,得到不同的聚类结果。产生原因,主要是由于不同的分类统计量所衡量的亲疏程度的实际意义不同,即,不同的亲疏程度指标代表了不同意义上的亲疏程度。因此在进行聚类分析时,应注意分类统计量的选择。通常,选择亲疏测度指标时,应注意遵循的基本原则主要有: (1)所选择的分类统计量在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。 (2)分类统计量的选择要综合考虑已对样本数据实施的变换方法和将要采用的聚类分析方法。如聚类前已对变量的相关性作了处理,则通常可采用欧氏距离。又如,所选取的分类统计量,还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法,则距离只能选用欧氏距离。 样品间或变量间的分类统计量的选取是一个比较复杂且带主观性的问题,应根据研究对象的特点进行具体分析。实践中,在开始进行聚类分析时,不妨试探性地多选取几个分类统计量,分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的分类统计量。 五、确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍一种比较常用的方法。 给定阈值——通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.5,当聚类时,类间的距离已经超过了0.5时,聚类结束。 根据谱系图确定分类个数的准则: 1、各类间的距离必须很大; 2、类中保包含的样品不要太多; 3、类的个数必须符合实际应用; 4、如果采用几种不同的聚类方法处理,则在各种聚类图中应该发现相同的类。 系统聚类方法 系统聚类法是目前国内外使用

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档