SAS学习系列35聚类分析.docxVIP

下载本文档

29
0
约1.26万字
约 32页
2017-01-09 发布于重庆
举报
版权申诉

SAS学习系列35聚类分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SAS学习系列35聚类分析

35. 聚类分析（一）概述聚类分析，相当于“物以类聚”，用于对事物的类别面貌尚不清楚，甚至在事前连总共有几类都不能确定的情况下对数据进行分类。而判别分析，必须事先知道各种判别的类型和数目，并且要有一批来自各判别类型的样本，才能建立判别函数来对未知属性的样本进行判别和归类。聚类分析是把分类对象按一定规则分成组或类，这些组或类不是事先给定的而是根据数据特征而定的。在同类的对象在某种意义上倾向于彼此相似，而在不同类里的这些对象倾向于不相似。根据这种相似性的不同定义，聚类分析也有不同的方法。聚类分析分为：对样品的聚类，对变量的聚类。样品聚类：其统计指标是类与类之间距离，把每一个样品看成空间中的一个点，用某种原则规定类与类之间的距离，将距离近的点聚合成一类，距离远的点聚合成另一类。变量聚类：其统计指标是相似系数，将比较相似的变量归为一类，而把不怎么相似的变量归为另一类，用它可以把变量的亲疏关系直观地表示出来。（二）原理一、距离和相似系数1. 距离设有n组样品，每组样品有p个变量的数据如下：变量样品V1V2…VpX1x11x12…x1pX2x21x22…x2p……………Xnxn1xn2…xnp 例如，Xi到Xj的闵科夫斯基距离定义为：q=2时为欧几里得距离；还有马氏距离：dij = (Xi-Xj)TS-1(Xi-Xj)其中，Xi=(xi1, …, xip )，S-1为n个样品的p×p的协方差矩阵的逆矩阵。注：马氏距离考虑了观测变量之间的相关性和变异性（不再受各指标量纲的影响）。距离选择的基本原则：（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。（3）应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。2. 相似系数变量间的相似性，可以从它们的方向趋同性或“相关性”进行考察，从而得到“夹角余弦法”和“相关系数”两种度量方法。（1）夹角余弦Xi=(xi1, …, xip )和Xj作为p维向量，按通常内积中夹角的概念来定义（2）相关系数显然 |cij| ≤1，借助于相似系数，可以定义变量之间的距离。例如，采用非相似测度距离为dij=1-|cij|, 或dij2=1- rij2. 二、类的特征、类间的距离1. 类的定义给定某阈值T，① 若dij ≤ T，对任意i, j∈G；或者② 若(∑j∈G dij)/(k-1) ≤ T，对任意i∈G；或者③ 若对任意i∈G，都存在j∈G使得dij ≤ T；则称G为一个类。条件从强到弱的顺序为：①②③2. 类的特征设类G的元素为x1, …, xm, m为G中样品数。描述类的特征有：（1）均值或重心（2）样品协方差阵（3）直径3. 类间的距离设Gp和Gq中分别有p和q个样品，它们的重心分别记为和.（1）最短距离它不对类的形状加以限制，保证了对拉长和不规则类的检测，例如(b)(c)(e)(d)形式的类；但它却牺牲了恢复压缩类的性能，另外它也趋向于在分开主要类之前去掉分布的尾部。（2）最长距离严重地倾向于产生直径粗略相等的类，而且可能被异常值严重地扭曲，例如(a).（3）重心法距离即两个重心之间欧氏距离的平方。重心法在处理异常值上比其他谱系方法更稳健，但是在其他方便不如Ward或类平均距离法的效果好。（4）类平均距离Gp和Gq中所有两个样品对之间距离的平均。类平均距离法趋向于合并具有较小偏差的类，而且稍微有点倾向与产生相同方差的类。例如(a).（5）Ward最小方差法或Ward离差平方和距离D表示类的直径，也有若样品间的距离采用欧氏距离，上式可表示为该方法在每次合并类Gp和Gq为Gp+q时，总是选择使得合并后的Dw(p,q)值最小的类Gp和Gq（最小方差法）. 合并后增加的最小方差Dw(p,q)除以合并后总的离差平方和TSS的比值（即半偏R2）的统计意义是容易解释的。Ward方法趋向于合并具有少量观察的类，并倾向于形成具有大约相同数目观察的类，一般是在多元正态混合型、等球形协方差、等抽样概率假设下合并类。例如(a). Ward方法对异常值也很敏感。（6）密度估计法例如(b). 使用一种基于密度估计的新的非相似测度d*来计算样品xi和xj的近邻关系；②然后根据基于d*方法计算的距离，采用最小距离法进行聚类。有三种不同的密度估计法：k最近邻估计法、均匀核估计法、Wong混合法（适用于大数据集而不适用于小数据集）。（7）两阶段密度估计法在密度估计法中，众数类经常在尾部所有点聚类之前就已经被合并掉了。两阶