多元统计分析 第五章聚类分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 聚类分析 5.1聚类分析的基本问题 一、概念 是在样品(变量)之间结构不明确情况下建立一个定量尺度,借以度量样品(变量)间的亲疏程度,从而实现对样品(变量)进行分组的目的。 注:描述亲疏程度有两种尺度 (1)距离:将样品视为P维空间的一个“点”,点与点间可定义距离 将变量视为n维空间的一个“点”,点与点间可定义距离 (2)相似系数:可将样品视为P维空间的一个“向量”,向量间可定义相似系数 二、聚类分析的思路 开始,n个样品(P个变量)各自成类→每次,按样品(变量)间的亲疏程度,将最近(最相似)的两个样品(变量)聚成一类→最终将n个样品(P个变量)聚成一个大类 实际目的是聚成若干类,有利于分析问题 三、聚类分析的种类 按聚类对象分:样品分类 (Q型分类) 变量(指标)分类 (R型分类) 5.2距离和相似系数 一、样品(Q型)聚类的距离和相似系数 (一)距离 1、背景:视一个样品为P维空间中的一个点 2、距离应满足的公认条件 设用表示样品间的距离,则应满足 (1)非负性: (2)对称性: (3)三角不等式关系: 3、几种常见的距离定义 (1)明氏距离: 这里 特例: (2)马氏距离 设n个样品,收集到数据阵,生成协差阵 定义: (3)兰氏距离 n个样品两两计算距离,生成距离阵 特点:① ② (二)相似系数 1、背景:视一个样品为P维空间中的一个向量 2、相似系数应满足的公认条件 记为样品的相似系数,应有 (1) (2) (3) 3、常用的相似系数 (1)夹角余弦 说明: ①当 ② ③一般情况下, 两两计算夹角余弦,生成相似阵: 特点:; (2)相关系数 生成相关阵 特点:; 二、变量(R型)聚类的距离和相似系数 注:(1)视指标为n维空间的一个点或一个向量 (2)的定义同Q型聚类 5.3 系统聚类方法 提示: (1)类是样品(或变量)的集合,一般以G表示 (2)关键是如何定义类与类之间距离,不同的距离定义,产生不同的聚类方法 (3)不同聚类方法,聚类过程完全相同。初始,每个样品各自成类→依据选取的距离定义(最常用欧氏距离),选择最近(最相似)的两类聚合,类的个数少一个→重复进行直到所有样品聚成一类。 一、最短距离法 记为样品间的距离,为类间的距离,则 定义: 设己聚合成新类,到其余任一类的距离为: 聚类步骤: (1)选择样品间距离计算公式,各样品各自成类,计算,生成距离阵 (2)在的非主对角线上找最小的元素,设为,则把聚成一新类, (3)按,计算新类到其余任一类的距离,生成新的距离阵 (4)对重复(2)、(3)步,反复进行,直到所有样品聚成一个大类 例5.1 n=5,p=1的数据阵 样品 1 2 3 4 5 1 2 3.5 7 9 解:(1)按欧氏距离计算,生成 (2)在非主对角线上找出最小,将合为, (3)计算 生成 (4)在中找到最小,将合成新类, 计算 生成 重复(2)步,最小,合为 计算 生成 聚类树形图 二、最长距离法 关于、的意义同上 定义: 聚类过程中距离的确定:设己聚合成新类,到其余类的距离为: 例5.1解: →→ →→ →→ 三、中间距离法 聚类过程中距离的确定 (1) (1)公式导出---利用夹角余弦公式(图示略) ① ② ②×2﹣①得: ∴ (2)聚类步骤同上,但需要用距离的平方 解例5.1 →→ →→ →→ 简单记忆法:以最小距离为项点的直角三角形 如 四、离差平方和法(Word法) 设n个样品己聚成k类: 其中含有个样品:,其重心为 类的离差平方和定义为: 所有k类的总离差平方和为: Ward法的聚类步骤: 1、n个样品各自成类,有,这时 2、在己聚成的n类中,,两两相聚合成新类,并计算,找出,将对应的两类相聚合 3、在余下的n-1类中,重复第2步 五、其它系统聚类方法简介 1、

文档评论(0)

ygxt89 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档