正文聚类分析.docVIP

下载本文档

8
0
约3.17千字
约 4页
2018-03-29 发布于河南
举报
版权申诉

正文聚类分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

正文聚类分析

3.1 聚类分析聚类分析的职能是建立一种分类方法，它是将一批样品或变量，按照它们在性质上的亲疏程度进行分类。聚类分析聚类分析也称群分析、点群分析，是研究分类的一种多元统计方法。例如，我们可以根据学校的师资、设备、学生的情况，将大学分成一流大学，二流大学等；国家之间根据其发展水平可以划分为发达国家、发展中国家；自然界生物可以分为动物和植物等等。这些就是一些分类。 3.1.1基本思想：我们所研究的样品（网点）或指标（变量）之间存在程度不同的相似性（亲疏关系——以样品间距离衡量）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想。在聚类分析中，通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。R型聚类分析是对变量进行分类处理，Q型聚类分析是对样本进行分类处理。 3.1.2聚类的定义聚类可以定义如下: 在数据空间A 中, 数据集X 由许多数据点( 或数据对象) 组成,数据点xi=(xi1, ?,xid)∈A, xi 的每个属性( 或特征、或维度) xij 既可以是数值型, 也可以是枚举型。数据集X 相当于是以这N×d 矩阵。假设数据集X 中有N 个对象xi(i=1, ?, N)。聚类的最终目的就是把数据集X 划分为k 个分割Cm(m=1, ?, k) , 也有可能有些对象不属于任何一个分割, 这些对象就是噪声Cn。所有这些分割的并集就是数据集X, 并且这些分割之间没有交集, 这些Cm 就是聚类。 3.1.3聚类统计量——距离系数和相似系数聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量，然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数２类。距离系数一般用于对样品分类，而相似系数一般用于对变量聚类。假定研究对象均用所谓的“点”来表示，在聚类分析中，一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类，将“距离”较大的点或“相似系数”较小的点归为不同的类。距离的定义很多，如明式距离、明考斯基距离、马氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。 3.1.3.1距离设有n个样品，p个指标，数据矩阵为元素表示第i个样品的第j个指标。因每个样品有p个指标，故每个样品可以看成p维空间中的一个点，n个样品就构成p维空间中的n个点。因此，我们可以用距离来度量样品之间接近的程度。常用的距离 1）Minkowski）距离。当时时，为绝对距离；当时，为欧氏距离；当时，为切比雪夫距离。当各变量的测量值相差悬殊时，采用明氏距离并不合理，需要先对数据标准化，然后用标准化后的数据计算距离。 2)马氏距离设表示指标的协差阵即：如果存在，则两个样品之间的马氏距离为这里为样品的个指标组成的向量，即原始资料阵的第行向量。样品类似。顺便给出样品到总体的马氏距离定义为其中为总体的均值向量，为协方差阵。马氏距离既排除了各指标之间相关性的干扰，而且还不受各指标量纲的影响。除此之外，它还有一些优点，如可以证明，将原数据作一线性交换后，马氏距离仍不变等等。 3.1.3.2相似系数 1）将任何两个样品与看成维空间的两个向量，这两个向量的夹角余弦用表示。则当，说明两个样品与完全相似；接近1，说明两个样品与相似密切；=0，说明与完全不一样；接近0，说明与差别大。把所有两两样品的相似系数都算出，可排成相似系数矩阵：其中。是一个实对称阵，所以只须计算上三角形部分或下三角形部分，根据可对个样品进行分类，把比较相似的样品归为一类，不怎么相似的样品归为不同的类。 2）通常所说相关系数，一般指变量间的相关系数，作为刻划样品间的相似关系也可类似给出定义，即第个样品与第个样品之间的相关系数定义为：其中 3）就是两个向量与的夹角余弦， 4）。若将原始数据标准化，则，这时。把两两样品的相关系数都算出来，可排成样品相关系数矩阵：其中，可根据可对个样品进行分类。 3.1.4 聚类分析算法的分类随着人们对数据挖掘的深入研究和了解，各种聚类算法相继提出,每种新算法都声称比以前的一种算法优越,这使得各种聚类算法的比较变得越来越困难。实际上, 任何算法都不能证明自己比其它所有的算法在任何方面都优越,很多算法只是在前人提出的算法中做了某些方面的提高和改进，并且很多算法是为特定的领域而设计, 有各自的针对性。某些算法可能对某类数据, 在可行性，效率或者精度，