3.聚类分析详解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析 目 录 §1 引言 §2 系统聚类法 §3 动态聚类法 §4 有序样本聚类法 §5 聚类分析的SPSS操作 例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。 我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。 由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来? 聚类分析的定义:根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类。 §2 系统聚类法 系统聚类法:将类由多变少的聚类方法。 开始每个对象自成一类,然后每次聚类时只将最相似的两类合并,每次合并后再重新计算新类与其它类的距离;如此反复,直至将所有的对象都归并为一个类为止。 聚类的过程可用一张聚类谱系图来描述。 系统聚类法是目前应用最多的聚类方法。 正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。 一、常用的算法 3、中间距离法:介于最短距离与最长距离之间的距离。 6、离差平方和法 7、可变法 二、确定类的个数 在聚类分析过程中,类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。 总离差平方和的分解(准备知识) 如果这些样品被分成两类 可以证明: 总离差平方和 =组内离差平方和+组间离差平方和 令T为总离差平方和 令PG为分为G类的组内离差平方和。 3、伪F统计量的定义为 伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。 4、伪 统计量的定义为 其中 和 分别是K和L的类内离差平方和, 是将K和L合并为第M类的离差平方和 = - - 为合并导致的类内离差平方和的增量。用它 评价合并第K和L类的效果,伪 统计量大说 明不应该合并这两类,应该取合并前的水平。 2、空间的浓缩和扩张 设有两种系统聚类法A和B,他们在第i步的距离矩阵分别为Ai和Bi(i=1,2,3…),若AiBi ,则称第一种方法A比第二种方法B使空间扩张,或第二种方法比第一种方法浓缩。 四、主要的步骤 1、选择变量 (1)和聚类分析的目的密切相关 (2)反映要分类变量的特征 (3)在不同研究对象上的值有明显的差异 (4)变量之间不能高度相关 2、计算相似性 相似性是聚类分析中的基本概念,他反映了研究对象之间的亲疏程度,聚类分析就是根据对象之间的相似性来分类的。有很多刻画相似性的测度 3、聚类 选定了聚类的变量,计算出样品或指标之间的相似程度后,构成了一个相似程度的矩阵。这时主要涉及两个问题: (1)选择聚类的方法 (2)确定形成的类数 4、聚类结果的解释 对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类差别的原因。 例2 根据美国等20个国家和地区的信息基础设施 的发展状况进行分类。 Call—每千人拥有的电话线数; movel—每千人户居民拥有的蜂窝移动电话数; fee—高峰时期每三分钟国际电话的成本; comp—每千人拥有的计算机数; mips—每千人计算机功率(每秒百万指令); net—每千人互联网络户主数。 §3 动态聚类法(调优法) 一、思想 系统聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时,则是一件非常繁重的工

文档评论(0)

宝贝计划 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档