正文聚类分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
正文聚类分析

3.1 聚类分析 聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类。聚类分析聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;自然界生物可以分为动物和植物等等。这些就是一些分类。 3.1.1基本思想: 我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。 在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。R型聚类分析是对变量进行分类处理,Q型聚类分析是对样本进行分类处理。 3.1.2聚类的定义 聚类可以定义如下: 在数据空间A 中, 数据集X 由许多数据点( 或数据对象) 组成,数据点xi=(xi1, ?,xid)∈A, xi 的每个属性( 或特征、或维度) xij 既可以是数值型, 也可以是枚举型。数据集X 相当于是以这N×d 矩阵。假设数据集X 中有N 个对象xi(i=1, ?, N)。聚类的最终目的就是把数据集X 划分为k 个分割Cm(m=1, ?, k) , 也有可能有些对象不属于任何一个分割, 这些对象就是噪声Cn。所有这些分割的并集就是数据集X, 并且这些分割之间没有交集, 这些Cm 就是聚类。 3.1.3聚类统计量——距离系数和相似系数 聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数2类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。假定研究对象均用所谓的“点”来表示,在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类。距离的定义很多,如明式距离、明考斯基距离、马氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。 3.1.3.1距离 设有n个样品,p个指标,数据矩阵为 元素表示第i个样品的第j个指标。 因每个样品有p个指标,故每个样品可以看成p维空间中的一个点,n个样品就构成p维空间中的n个点。因此,我们可以用距离来度量样品之间接近的程度。 常用的距离 1)Minkowski)距离。 当时时,为绝对距离; 当时,为欧氏距离; 当时,为切比雪夫距离。 当各变量的测量值相差悬殊时,采用明氏距离并不合理,需要先对数据标准化,然后用标准化后的数据计算距离。 2)马氏距离 设表示指标的协差阵即: 如果存在,则两个样品之间的马氏距离为 这里为样品的个指标组成的向量,即原始资料阵的第行向量。样品类似。 顺便给出样品到总体的马氏距离定义为 其中为总体的均值向量,为协方差阵。 马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。 3.1.3.2相似系数 1) 将任何两个样品与看成维空间的两个向量,这两个向量的夹角余弦用表示。则 当,说明两个样品与完全相似;接近1,说明两个样品与相似密切;=0,说明与完全不一样;接近0,说明与差别大。把所有两两样品的相似系数都算出,可排成相似系数矩阵: 其中。是一个实对称阵,所以只须计算上三角形部分或下三角形部分,根据可对个样品进行分类,把比较相似的样品归为一类,不怎么相似的样品归为不同的类。 2) 通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第个样品与第个样品之间的相关系数定义为: 其中 3)就是两个向量与的夹角余弦, 4)。若将原始数据标准化,则,这时。把两两样品的相关系数都算出来,可排成样品相关系数矩阵: 其中,可根据可对个样品进行分类。 3.1.4 聚类分析算法的分类 随着人们对数据挖掘的深入研究和了解,各种聚类算法相继提出,每种新算法都声称比以前的一种算法优越,这使得各种聚类算法的比较变得越来越困难。实际上, 任何算法都不能证明自己比其它所有的算法在任何方面都优越,很多算法只是在前人提出的算法中做了某些方面的提高和改进,并且很多算法是为特定的领域而设计, 有各自的针对性。某些算法可能对某类数据, 在可行性,效率或者精度,

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档