聚类分析1.doc

下载文档

5
0
约2.31千字
约 8页
2017-02-14 发布于重庆
举报
版权申诉
保障服务

聚类分析1.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析1

聚类分析人类认识世界往往首先将被认识的对象进行分类，聚类分析是研究分类问题的多元数据分析方法，是数值分类学中的一支。多元数据形成数据矩阵，见下表1。在数据矩阵中，共有n个样品 x1，x2，…，xn（列向），p个指标（行向）。聚类分析有两种类型：按样品聚类或按变量（指标）聚类。表1 数据矩阵样品指标聚类分析的基本思想是在样品之间定义距离，在变量之间定义相似系数，距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小，将样品（或变量）逐一归类，关系密切的类聚到一个小的分类单位，然后逐步扩大，使得关系疏远的聚合到一个大的分类单位，直到所有的样品（或变量）都聚集完毕，形成一个表示亲疏关系的谱系图，依次按照某些要求对样品（或变量）进行分类。一、分类统计量----距离与相似系数 1．样品间的相似性度量----距离用样品点之间的距离来衡量各样品之间的相似性程度（或靠近程度）。设是样品之间的距离，一般要求它满足下列条件：在聚类分析中，有些距离不满足3），我们在广义的角度上仍称它为距离。 1.1? 欧氏距离 1.2 绝对距离 1.3 Minkowski 距离 1.4 Chebyshev距离 1.5 方差加权距离其中 1.6 马氏距离其中 S 是由样品算得的协方差矩阵：样品聚类通常称为Q型聚类，其出发点是距离矩阵。 2．变量间的相似性度量----相似系数当对p个指标变量进行聚类时，用相似系数来衡量变量之间的相似程度（或关联程度）。一般地，若表示变量之间的相似系数，应满足：的绝对值越接近于1，说明变量的关联越大。相似系数中最常用的是相关系数与夹角余弦。 2.1 相关系数变量之间的相关系数定义为：事实上，是变量的观测值之间的相关系数。 2.2 夹角余弦变量的观测值，其夹角余弦定义为：变量聚类通常称为 R 型聚类。在 R 型聚类中，相似系数矩阵 C 是出发点，相似系数矩阵可以是相关矩阵，也可以是夹角余弦矩阵。二、谱系聚类法这里所介绍的是样品的谱系聚类法。 1．类间距离定义为简单起见，以i，j分别表示样品，以dij简记i，j之间的距离。Gp，Gq分别表示两个类，设它们分别含有np，nq个样品。若类Gp中有样品，则其均值称为类 Gp 的重心。类Gp与Gq之间的距离记为 Dpq，有多种多样定义方式。 1.1 最短距离 1.2 最长距离 1.3 类平均距离 1.4 重心距离 1.5 离差平方和距离 2．类间距离的递推公式按照谱系聚类法的思想，先将样品聚合成小类，在逐步扩大为大类。设类 Gr由类Gp、Gq合并所得，则Gr包含nr=np+nq个样品。问题：由Gp，Gq与其它类Gk(k≠p,q)的距离计算Gr与Gk（k≠p,q）的距离，即建立类间距离的递推公式。 2.1 最短距离 2.2 最长距离 2.3 类平均距离 2.4 重心距离 2.5 离差平方和距离 3．谱系聚类法的步骤谱系聚类法的步骤如下： Step1 n 个样品开始时作为 n 个类，计算两两之间的距离，构成一个对称距离矩阵：此时，Dpq=dpq； Step2 选择 D(0)中的非对角线上的最小元素，设这个最小元素是 Dpq。此时，Gp={xp}，Gq={xq}。将Gp，Gq合并成一个新类 Gr={Gp，Gq}。在 D(0)中消去Gp和Gq所对应的行与列，并加入有新类Gr与剩下的其它未聚合的类间的距离所组成的一行和一列，得到一个新的距离矩阵D(1)，它是n-1阶方阵； Step3 从 D(1)出发重复 Step2 的作法得 D(2)，再由D(2)出发重复上述步骤，直到n个样品聚为1个大类为止；注意：?在合并过程中要记下合并样品的编号及两类合并时的水平（即距离）并绘制聚类谱系图。 4．谱系聚类法的统计量用谱系聚类法聚类时，聚多少类合适，这是一个实际的问题。一个较好的聚类应该在类内阁样品尽可能相似的前提下，使得类的个数尽可能少。这里需要考虑谱系距离用到的统计量，利用它们，可以在一定程度上判别聚多少类为合适。 4.1 R2统计量设谱系得第 G 层共有G个类，定义其中为Gk的重心，Sk越小，说明Gk中各样品越相似。定义 R2 统计量如下： R2总是随着分类数目的减少而减小，可以从R2值的变化看n个样品分成几类最合适。比如，分为5类以前各类的R2减小较缓慢；假定分为5类时，R2=0.85，而下一次合并，即分为4类时R2减小较快，如R2=0.35，则认为分为5类较合适。 4.2 半偏相关统计量这一统计量与离差平方和距离有关。设类 Gp，Gq的离差平方和分别是将 Gp