第5章聚类分析new.ppt

下载文档 降价啦

16
0
约3.97千字
约 45页
2016-09-12 发布于江西
举报
版权申诉
保障服务

第5章聚类分析new.ppt

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第5章聚类分析new.ppt

第5章聚类分析 §5.1 概述 R型聚类通常使用相似系数 2、用于定性数据的相似性测度 (关联测度) 例: 总体(性别,籍贯(云、贵、川)) §5.2 系统聚类法 5.2.3 聚类分析步骤 §5.3 动态聚类方法 (K-均值聚类法）将上述并类过程画成图7.1， 0 1 2 1.5 2.5 G1 距离图（7.1）聚类图 G2 G3 G4 G5 G6 G7 G8 G9 最后决定类的个数与类。从图上看，分两类较为合适，得到两类为或用样本来表示这两类是 0 1 2 1.5 2.5 G1 距离图（7.1）聚类图 G2 G3 G4 G5 G6 G7 G8 G9 或由给定的距离，决定如何分类。例如给定分类距离为2.2,这等价于在图7.1上，距离为2.2处切一刀,可分为两类; 若分类距离为1.8,则应分为三类 0 1 2 1.5 2.5 G1 距离图（7.1）聚类图 G2 G3 G4 G5 G6 G7 G8 G9 5.3.1　基本思想当样本数很多的情况下，系统聚类方法的计算工作量很大，克服这个缺点的方法是，先大致将所有样本分成k类（初始分类），然后按照某种最优原则进行修改，直到分类比较合理为止，这就是逐步聚类方法。根据修改原则的不同，可以将逐步聚类方法命名为各种不同的方法。这里介绍最常用的K-均值聚类法（k-means clustering) * * cluster analysis 5.1.1 基本思想人类认识世界往往道首先将被认识的对象进行分类，因此分类学便成为人类认识世界的基础科学，在古老的分类学中，人们主要靠经验和专业知识实现分类。随着人类对自然的认识不断加深，分类越来越细，要求越来越高，以致有时只凭经验和专业知识还不能进行确切的分类，于是数学这个有用的工具逐渐被引进分类学中，形成了数值分类学。后来随着多元分析的引进，从数值分类学中又逐渐地分离出了聚类分析这个分支，由于它的应用取得了很大的成功，和回归分析、判别分析一起被称为多元分析的三大方法。聚类根据实际的需要，又可能有两个方向： 1. 样本聚类（Q聚类）(case cluster analysis) 2. 变量聚类（R聚类）(variabe cluster analysis) 根据聚类方法，聚类分析又分为： 1. 系统聚类 (joining cluster procedures) 2. 动态聚类 (iterative partitioning procedures) 现在第一位重要的问题是“什么是类”？粗糙地讲，以什么为标准相似物体的集合称为类，由于客观世界的复杂性，要想给“类”一个严格的定义是困难的. 5.1.2 相似性测度 1、数值变量的相似性测度 Q型聚类，多用“距离”作样本间的相似性测度设X,Y是两个样本（变量），它们均含m个值（1）绝对距离 (city-block distance or Manhattan distance) （2）欧氏距离（euclidean distance）（3）平方欧氏距离（squared euclidean distance）（4）切比雪夫距离（Chebychev distance）（5）明考斯基效力距离（power distance）定量数据常用的相似系数（1）夹角余弦（cosine) 两个样本X和Y的夹角余弦为它是平面上二个向量夹角余弦的推广。 (2) 皮尔逊相关系数（Pearson correlation) 皮尔逊相关系数是标准化后的夹角余弦，应用更为广泛设x,y的各变量都是0、1型定性数据时，二个样本各分量可能出现四种配对情况 x=0,y=0; x=1,y=0; x=0,y=1; x=1,y=1 每种配对情况出现的个数为a，b，c，d，于是二样本单元间的各种情况可列表如下 a+b+c+d b+d a+c 合计 c+d d c 1 a+b b a 0 合计 1 0 x y 显然，此表中a和d越大，表示二样本越接近。由此可以构造出很多适用于0、1型数

您可能关注的文档

文档评论（0）

xinshengwencai + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：5311233133000002

1亿VIP精品文档

更多 >

第5章聚类分析new.ppt