应用统计—聚类分析.doc

下载文档 降价啦

11
0
约5.34千字
约 9页
2017-04-21 发布于江西
举报
版权申诉
保障服务

应用统计—聚类分析.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

应用统计—聚类分析

聚类分析聚类分析也称群分析、点群分析，他是研究分类的一种多元统计方法。 ??? 例如，我们可以根据学校的师资、设备、学生的情况，将大学分成一流大学，二流大学等；国家之间根据其发展水平可以划分为发达国家、发展中国家；自然界生物可以分为动物和植物等等。这些就是一些分类。那么分类根据什么分呢？一、基本思想：我们所研究的样品或指标（变量）之间存在程度不同的相似性（亲疏关系）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想。以下我们学习一种常用的分类法称作系统聚类法。在聚类分析中，通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理，R型聚类分析是对变量进行分类处理。 R型聚类分析的主要作用是： 1、不但可以了解个别变量之间的关系的亲疏程度，而且可以了解各个变量组合之间的亲疏程度。 2、根据变量的分类结果以及它们之间的关系，可以选择主要变量进行回归分析或Q型聚类分析。 Q型聚类分析的优点是： 1、可以综合利用多个变量的信息对样本进行分类； 2、分类结果是直观的，聚类谱系图非常清楚地表现其数值分类结果； 3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。为了进行聚类分析，首先我们定义样品间的距离。二、距离设有n个样品，p个指标，数据矩阵为 ? 元素表示第i个样品的第j个指标。因每个样品有p个指标，故每个样品可以看成p维空间中的一个点，n个样品就构成p维空间中的n个点。因此，我们可以用距离来度量样品之间接近的程度。常用的距离 1）明氏（Minkowski）距离。当时，为绝对距离；当时，为欧氏距离；当时，为切比雪夫距离。当各变量的测量值相差悬殊时，采用明氏距离并不合理，需要先对数据标准化，然后用标准化后的数据计算距离。明氏距离特别是其中的欧氏距离是人们较为熟悉的，也是使用最多的距离。但明氏距离存在不足之处，主要表现在两个方面：第一，它与各指标的量纲有关；第二，它没有考虑指标之间的相关性，欧氏距离也不例外。 2)马氏距离设表示指标的协差阵即： ? 其中 ? ??? 如果存在，则两个样品之间的马氏距离为 ??? 这里为样品的个指标组成的向量，即原始资料阵的第行向量。样品类似。顺便给出样品到总体的马氏距离定义为 ??? 其中为总体的均值向量，为协方差阵。马氏距离既排除了各指标之间相关性的干扰，而且还不受各指标量纲的影响。除此之外，它还有一些优点，如可以证明，将原数据作一线性交换后，马氏距离仍不变等等。 3）兰氏距离 ?? ???? 此距离仅使用于一切的情况，这个距离有助于克服各指标之间量纲的影响，但没有考虑指标之间的相关性。计算任何两个样品与之间的距离，其值越小表示两个样品接近程度越大，值越大表示两个样品接近程度越小。如果把任何两个样品的距离都算出来后，可排成距离阵： ????? 其中。是一个实对称阵，所以只须计算上三角形部分或下三角形部分即可。根据可对个点进行分类，距离近的点归为一类，距离远的点归为不同的类。三、相似系数 1）夹角余弦将任何两个样品与看成维空间的两个向量，这两个向量的夹角余弦用表示。则 ????? 当，说明两个样品与完全相似；接近1，说明两个样品与相似密切； =0，说明与完全不一样；接近0，说明与差别大。把所有两两样品的相似系数都算出，可排成相似系数矩阵： ??? 其中。是一个实对称阵，所以只须计算上三角形部分或下三角形部分，根据可对个样品进行分类，把比较相似的样品归为一类，不怎么相似的样品归为不同的类。 2）相关系数通常所说相关系数，一般指变量间的相关系数，作为刻划样品间的相似关系也可类似给出定义，即第个样品与第个样品之间的相关系数定义为： ????? 其中 ???? 3）实际上，就是两个向量与的夹角余弦， 4）其中。若将原始数据标准化，则，这时。把两两样品的相关系数都算出来，可排成样品相关系数矩阵： ???????? 其中，可根据可对个样品进行分类。第三节? 系统聚类方法正如样品之间的距离可以有不同的定义方法一样，类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离，或者定义为两类之间最远样品的距离，与可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距