聚类分析和判别分析-数据分析师.PPT

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析和判别分析-数据分析师

第11章 聚类分析与判别分析 聚类分析 判别分析 聚类分析 引言 相似性度量 系统聚类 K-均值聚类 聚类分析的SPSS实现 引言 物以类聚,人以群分。 例:中国的民族分成若干类,上市公司分类,等等 对于一个数据集,人们既可以对变量(指标)进行分类(称为R型聚类),也可以对观测值(个案,样品)来分类(称为Q型聚类)。这两种聚类在数学上是对称的,没有什么不同。 例:哪些少数民族的生存状况更接近? 聚类分析需要解决的一个问题 如何衡量样本点之间的距离或相似程度? 距离,主要用于样品(观测)间相似性度量 相似系数,主要用于变量间相似性度量 设每个样品有p个指标(变量)。把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。 两点距离公式可以从不同角度进行定义。 当变量的测量值相差悬殊时,要先进行标准化,以消除计量单位对计算结果的影响。 常用的距离的计算方法 欧氏距离(Euclidean) 平方欧氏距离Squared Euclidean 切比雪夫距离(Chebychev) 明考夫斯基距离(明氏距离)** 按q的取值不同可以包括多种距离计算方法。例如: 相似系数的计算方法 变量间的相似性可以从它们的方向趋同性或“相关性”进行考察, “夹角余弦法”和“相关系数”两种主要度量方法,统称为相似系数。 (1) 夹角余弦* 两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算 显然,∣cos ? ij∣ ? 1。 相似系数的计算方法 (2) Pearson相关系数 Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为 显然也有,∣rij∣ ? 1。 系统聚类法(分层聚类) hierarchical cluster 开始时,有多少样本点就是多少类。 第一步先把最近的两类(点)合并成一类; 然后再把剩下的最近的两类合并成一类; 这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。 需要解决的新问题:如何计算类与类之间的距离? 最短距离法 最长距离法 重心法 Ward法(离差平方和法) 等等 最短距离 最长距离 重心法(Centroid clustering):均值点的距离 离差平方和法:合并离差平方和变动最小的两个类 离差平方和法:合并离差平方和变动最小的两个类 红绿(1,2,7,9) 44.75 离差平方和增加44.75-2.5=42.25 黄绿(4,5,7,9)14.75 离差平方和增加14.75-2.5=12.25 黄红(1,2,4,5)10 离差平方和增加10-1=9 故按该方法黄红首先连接。 6个不同民族的聚类:数据表 各民族之间的欧氏距离 最短距离法举例 (1)首先合并G5、G6,再计算新类与其他类之间的距离。 (2)根据计算结果合并G4,G7 根据表中的结果合并G2,G3 根据表中的数据合并G1,G9 最后合并成一类 聚类结果的谱系聚类图(最短距离法) 藏族 哈萨克族 维吾尔族 朝鲜族 蒙古族 满族 聚类要注意的问题 聚类结果受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。 从分层聚类的计算机结果可以得到任何可能数量的类。 聚类的目的是要使各类距离尽可能地远,而类内点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。 SPSS系统聚类的实现和结果分析:数据表 相关软件操作 选择分析-分类-系统聚类 把热量、钠含量、酒精、价格选入变量框; 把啤酒名选入“标注个案”框。 选择“绘制”,选中“树状图”; 方法设定 在聚类方法框中选择需要的方法; 在度量标准框中选择距离的计算方法; 在“标准化”框中选择Z得分。 输出结果:聚类表 冰柱图 聚类树形图(SPSS18.0) 图形反映了类间的距离和聚类过程。 最短距离法的聚类结果 按照不同的聚类方法可能得到完全不同的聚类结果。选择各类较为均衡、易于解释的方法! SPSS结果分析 在开始的操作中,通过相应的选项可以把分类结果存储起来。 K-均值聚类 系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。 k-均值聚类(k-means cluster)可以避免上述问题,适用于样本点很多的情况,但要求

您可能关注的文档

文档评论(0)

wumanduo11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档