第5章 聚类分析new.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 聚类分析new.ppt

第5章 聚类分析 §5.1 概 述 R型聚类通常使用相似系数 2、用于定性数据的相似性测度 (关联测度) 例: 总体(性别,籍贯(云、贵、川)) §5.2 系统聚类法 5.2.3 聚类分析步骤 §5.3 动态聚类方法 (K-均值聚类法) 将上述并类过程画成图7.1, 0 1 2 1.5 2.5 G1 距离 图(7.1) 聚类图 G2 G3 G4 G5 G6 G7 G8 G9 最后决定类的个数与类。从图上看,分两类较为合适,得到两类为 或用样本来表示这两类是 0 1 2 1.5 2.5 G1 距离 图(7.1) 聚类图 G2 G3 G4 G5 G6 G7 G8 G9 或由给定的距离,决定如何分类。 例如给定分类距离为2.2,这等价于在图7.1上,距离为2.2处切一刀,可分为两类; 若分类距离为1.8,则应分为三类 0 1 2 1.5 2.5 G1 距离 图(7.1) 聚类图 G2 G3 G4 G5 G6 G7 G8 G9 5.3.1 基本思想 当样本数很多的情况下,系统聚类方法的计算工作量很大,克服这个缺点的方法是,先大致将所有样本分成k类(初始分类),然后按照某种最优原则进行修改,直到分类比较合理为止,这就是逐步聚类方法。根据修改原则的不同,可以将逐步聚类方法命名为各种不同的方法。这里介绍最常用的K-均值聚类法(k-means clustering) * * cluster analysis 5.1.1 基本思想 人类认识世界往往道首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学,在古老的分类学中,人们主要靠经验和专业知识实现分类。随着人类对自然的认识不断加深,分类越来越细,要求越来越高,以致有时只凭经验和专业知识还不能进行确切的分类,于是数学这个有用的工具逐渐被引进分类学中,形成了数值分类学。 后来随着多元分析的引进,从数值分类学中又逐渐地分离出了聚类分析这个分支,由于它的应用取得了很大的成功,和回归分析、判别分析一起被称为多元分析的三大方法。 聚类根据实际的需要,又可能有两个方向: 1. 样本聚类(Q聚类)(case cluster analysis) 2. 变量聚类 (R聚类)(variabe cluster analysis) 根据聚类方法,聚类分析又分为: 1. 系统聚类 (joining cluster procedures) 2. 动态聚类 (iterative partitioning procedures) 现在第一位重要的问题是“什么是类”?粗糙地讲,以什么为标准相似物体的集合称为类,由于客观世界的复杂性,要想给“类”一个严格的定义是困难的. 5.1.2 相似性测度 1、数值变量的相似性测度 Q型聚类,多用“距离”作样本间的相似性测度 设X,Y是两个样本(变量),它们均含m个值 (1)绝对距离 (city-block distance or Manhattan distance) (2)欧氏距离(euclidean distance) (3)平方欧氏距离(squared euclidean distance) (4)切比雪夫距离(Chebychev distance) (5)明考斯基效力距离(power distance) 定量数据常用的相似系数 (1)夹角余弦(cosine) 两个样本X和Y的夹角余弦为 它是平面上二个向量夹角余弦的推广。 (2) 皮尔逊相关系数 (Pearson correlation) 皮尔逊相关系数是标准化后的夹角余弦,应用更为广泛 设x,y的各变量都是0、1型定性数据时,二个样本各分量可能出现四种配对情况 x=0,y=0; x=1,y=0; x=0,y=1; x=1,y=1 每种配对情况出现的个数为a,b,c,d,于是二样本单元间的各种情况可列表如下 a+b+c+d b+d a+c 合计 c+d d c 1 a+b b a 0 合计 1 0 x y 显然,此表中a和d越大,表示二样本越接近。由此可以构造出很多适用于0、1型数

文档评论(0)

xinshengwencai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5311233133000002

1亿VIP精品文档

相关文档