演示专题7聚类分析.docVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
演示专题7聚类分析

专题7 聚类分析 1 聚类分析概述 2 系统聚类 3 动态聚类(K-means法) 4 用法举例 1 聚类分析概述 1.1 聚类问题 1.2 聚类分析的原始数据 1.3 聚类方法 1.4 相似系数和距离 返回 1.1 聚类问题 聚类就是要根据接近程度(如关系的密切程度、属性的相似程度或距离的接近程度等),将观察指标或观察对象(样品)归并成不同类别。 聚类分析的方法有多种,每种方法又有许多种不同的具体处理方法,内容非常丰富,本章仅介绍其中最常用的两种方法。 聚类分析可分为变量聚类(又称R型聚类或指标聚类)和样品聚类(又称Q型聚类)。 若有p个变量x1、x2、…xp,要将这p个变量归并成若干类,使同一类中的变量较“接近”,不同类中的变量较不“接近”,这就是变量聚类问题。如要在一组指标中挑选出若干个具有代表性的指标,就可先做变量聚类,再在每一类指标中挑选一个代表。 若有n个样品A1、A2、…An,要将这n个样品根据某几个变量归并成若干类,使同一类中的样品较“接近”,不同类中的样品较不“接近”,这就是样品聚类问题,这几个用于聚类的变量称为聚类变量。 如要根据一批运动员的若干技术特征指标,将这批运动员划分成几种类型(事先没有分类标准),这时就可作样品聚类。 变量聚类与样品聚类之间没有本质区别,聚类方法是通用的。事实上,变量和样品在某些问题中是相对的,是人为设定的。 返回 1.2 聚类分析的原始数据 聚类分析的原始数据与主成分分析、因子分析的一样,即抽取一个样本,测取样本中每个观察对象的x1、x2、…xp的值(这p个变量是R型聚类中的聚类对象,或是Q型聚类中用于分类的变量),注意每个对象各指标的值都要测全。 返回 1.3 聚类方法 聚类方法有很多,最常用的聚类方法有系统聚类法和动态聚类法。 系统聚类法又称层次聚类法或谱系聚类法,是使用得最普遍的聚类方法。 该法不受样品或变量的排列顺序的影响,统计结果比较系统完整,但聚类对象一旦划归某一类后就不变了,因此要求归类的方法比较准确。 此外系统聚类法当聚类对象很多时,计算量和对计算机内存的需求量将很大,统计结果的表述也将比较繁琐,故适用于聚类对象不太多的情况。 动态聚类法也称逐步聚类法,k-means法是其中最常用的一种。k-means法是一种快速聚类方法,该方法利用迭代的思想,对划分的类反复进行调整,使之逐渐趋于较优。 该法计算量相对较小,可以处理多至10万个聚类对象,但动态聚类法所能得到的结果不如系统聚类法的完整、系统,另外当聚类对象较少时,某些情况下会受聚类对象排列顺序的影响,故适用于聚类对象较多的情况。 由于一般情况下变量聚类的聚类对象较少,所以通常使用系统聚类法;样品聚类当聚类对象较少时,常用系统聚类法;聚类对象较多时,常用动态聚类法。 返回 1.4 相似系数和距离 聚类对象间接近程度,用“接近度系数”衡量,接近度系数又分“相似系数”和“距离”两类。 相似系数的值在-1~1范围内,其值越大说明两对象越接近。相似系数有多种,最常用的有相关系数、相关系数的绝对值、夹角余弦等。 距离则相反,距离越小说明两对象越接近。距离也有多种,对于间距测度资料,最常用的距离为欧氏距离平方,也常用欧氏距离。为了消除量纲的影响,常先把数据标准化。 通常在变量聚类中用相似系数,在样品聚类中用距离。 在体育领域中,对间距测度的资料,最常用的相似系数为相关系数或相关系数的绝对值。若认为两个高度负相关的变量不应归入同一组的话,则可用相关系数,而不用其绝对值,反之则用相关系数的绝对值。也即各变量都是越大越好,则宜直接用相关系数,若有的变量越大越好、有的越小越好,则宜用相关系数绝对值。 返回 2 系统聚类 2.1 系统聚类法的基本步骤 2.2 类与类之间的相似系数(或距离)的计算 2.3 系统聚类法的主要统计结果和例题 返回 2.1 系统聚类法的基本步骤 系统聚类法的基本步骤如下: 计算p个聚类对象两两之间的接近度系数(相似系数或距离)。 将每个聚类对象单独作为一个类,得p个类。 合并相似系数最大(或距离最小)的两类为一新类。 若类的个数为1,转步骤⑤,否则计算新类与当前各类间的相似系数(或距离),再转回步骤③。 作聚类图。 根据聚类的情况、专业知识和实际问题的需要,决定分几类。(决定了类的数目,也就决定了各个类。) 返回 2.2 类与类之间的相似系数(或距离)的计算 计算类与类之间的相似系数(或距离)时,由于每一类中有若干个聚类对象,所以产生了许多的计算方法,这一计算方法的不同,就引出了许多不同的系统聚类方法。 图13.1 组间连接法示意图 这

文档评论(0)

youshen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档