演示专题7聚类分析.docVIP

下载本文档

14
0
约5.88千字
约 32页
2017-02-13 发布于重庆
举报
版权申诉

演示专题7聚类分析.doc

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

演示专题7聚类分析

专题7 聚类分析 1 聚类分析概述 2 系统聚类 3 动态聚类（K-means法） 4 用法举例 1 聚类分析概述 1.1 聚类问题 1.2 聚类分析的原始数据 1.3 聚类方法 1.4 相似系数和距离返回 1.1 聚类问题聚类就是要根据接近程度（如关系的密切程度、属性的相似程度或距离的接近程度等），将观察指标或观察对象（样品）归并成不同类别。聚类分析的方法有多种，每种方法又有许多种不同的具体处理方法，内容非常丰富，本章仅介绍其中最常用的两种方法。聚类分析可分为变量聚类（又称R型聚类或指标聚类）和样品聚类（又称Q型聚类）。若有p个变量x1、x2、…xp，要将这p个变量归并成若干类，使同一类中的变量较“接近”，不同类中的变量较不“接近”，这就是变量聚类问题。如要在一组指标中挑选出若干个具有代表性的指标，就可先做变量聚类，再在每一类指标中挑选一个代表。若有n个样品A1、A2、…An，要将这n个样品根据某几个变量归并成若干类，使同一类中的样品较“接近”，不同类中的样品较不“接近”，这就是样品聚类问题，这几个用于聚类的变量称为聚类变量。如要根据一批运动员的若干技术特征指标，将这批运动员划分成几种类型（事先没有分类标准），这时就可作样品聚类。变量聚类与样品聚类之间没有本质区别，聚类方法是通用的。事实上，变量和样品在某些问题中是相对的，是人为设定的。返回 1.2 聚类分析的原始数据聚类分析的原始数据与主成分分析、因子分析的一样，即抽取一个样本，测取样本中每个观察对象的x1、x2、…xp的值（这p个变量是R型聚类中的聚类对象，或是Q型聚类中用于分类的变量），注意每个对象各指标的值都要测全。返回 1.3 聚类方法聚类方法有很多，最常用的聚类方法有系统聚类法和动态聚类法。系统聚类法又称层次聚类法或谱系聚类法，是使用得最普遍的聚类方法。该法不受样品或变量的排列顺序的影响，统计结果比较系统完整，但聚类对象一旦划归某一类后就不变了，因此要求归类的方法比较准确。此外系统聚类法当聚类对象很多时，计算量和对计算机内存的需求量将很大，统计结果的表述也将比较繁琐，故适用于聚类对象不太多的情况。动态聚类法也称逐步聚类法，k-means法是其中最常用的一种。k-means法是一种快速聚类方法，该方法利用迭代的思想，对划分的类反复进行调整，使之逐渐趋于较优。该法计算量相对较小，可以处理多至10万个聚类对象，但动态聚类法所能得到的结果不如系统聚类法的完整、系统，另外当聚类对象较少时，某些情况下会受聚类对象排列顺序的影响，故适用于聚类对象较多的情况。由于一般情况下变量聚类的聚类对象较少，所以通常使用系统聚类法；样品聚类当聚类对象较少时，常用系统聚类法；聚类对象较多时，常用动态聚类法。返回 1.4 相似系数和距离聚类对象间接近程度，用“接近度系数”衡量，接近度系数又分“相似系数”和“距离”两类。相似系数的值在-1～1范围内，其值越大说明两对象越接近。相似系数有多种，最常用的有相关系数、相关系数的绝对值、夹角余弦等。距离则相反，距离越小说明两对象越接近。距离也有多种，对于间距测度资料，最常用的距离为欧氏距离平方，也常用欧氏距离。为了消除量纲的影响，常先把数据标准化。通常在变量聚类中用相似系数，在样品聚类中用距离。在体育领域中，对间距测度的资料，最常用的相似系数为相关系数或相关系数的绝对值。若认为两个高度负相关的变量不应归入同一组的话，则可用相关系数，而不用其绝对值，反之则用相关系数的绝对值。也即各变量都是越大越好，则宜直接用相关系数，若有的变量越大越好、有的越小越好，则宜用相关系数绝对值。返回 2 系统聚类 2.1 系统聚类法的基本步骤 2.2 类与类之间的相似系数（或距离）的计算 2.3 系统聚类法的主要统计结果和例题返回 2.1 系统聚类法的基本步骤系统聚类法的基本步骤如下：计算p个聚类对象两两之间的接近度系数（相似系数或距离）。将每个聚类对象单独作为一个类，得p个类。合并相似系数最大（或距离最小）的两类为一新类。若类的个数为1，转步骤⑤，否则计算新类与当前各类间的相似系数（或距离），再转回步骤③。作聚类图。根据聚类的情况、专业知识和实际问题的需要，决定分几类。（决定了类的数目，也就决定了各个类。）返回 2.2 类与类之间的相似系数（或距离）的计算计算类与类之间的相似系数（或距离）时，由于每一类中有若干个聚类对象，所以产生了许多的计算方法，这一计算方法的不同，就引出了许多不同的系统聚类方法。图13.1 组间连接法示意图这