第七讲聚类分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

其他距离斜交空间距离链距离第30页,共60页,星期日,2025年,2月5日相似系数相似系数的定义常用相似系数夹角余弦相关系数指数相似系数非参数方法第31页,共60页,星期日,2025年,2月5日相似系数的定义第32页,共60页,星期日,2025年,2月5日夹角余弦第33页,共60页,星期日,2025年,2月5日相关系数第34页,共60页,星期日,2025年,2月5日指数相似系数第35页,共60页,星期日,2025年,2月5日非参数方法第36页,共60页,星期日,2025年,2月5日距离以及相似系数的选择原则对于同一数据资料,进行聚类分析时,选择的不同的距离公式或者不同的相似系数,聚类结果是不一样的。因为不同的距离公式或者不同的相似系数所反映的样品或指标的亲疏程度的意义是不同,因此,在运用中应该根据不同的实际情况,选择不同距离或相似系数。实际意义原则数据性质原则第37页,共60页,星期日,2025年,2月5日实际意义原则即所选择的距离或者相似系数应该具有明确的实际意义。比如经济指标之间的相关应该是具有现实的经济联系的。第38页,共60页,星期日,2025年,2月5日数据性质原则根据原始数据的各自特点,选择不同的数据变换,再根据不同的数据变换选择不同的距离或者相似系数。1、若数据进行了标准化,则相关系数与夹角余弦是一致。2、若聚类分析前已经对变量的相关性作了处理,则通常采用欧氏距离,而不必选用斜交空间距离。3、所选距离应与所选聚类分析方法一致(1)若聚类方法为离差平方和法时,距离只能选用欧氏距离;(2)工作量大小原则。斜交空间距离的计算量一般很大。总之,在一般情况下,有以下的经验可以借鉴。相关系数的稳定性要强于相似系数,而分辨力却弱于相似系数;使用距离和使用相似系数进行聚类的结果对比,相似系数的计算数值由大到小单调地减少,所以聚类谱系图能够比较明显地反映分群的情况,而使用距离的数据有时呈现非单调性增加,聚类谱系图反映的分群情况就不够明显。第39页,共60页,星期日,2025年,2月5日第三节系统聚类分析方法系统聚类分析的涵义及步骤系统聚类方法系统聚类分析方法的统一公式剩余信息的剔除谱系分类的确定系统聚类分析方法的性质第40页,共60页,星期日,2025年,2月5日系统聚类分析的涵义及步骤涵义:是在样品距离的基础上,定义类与类之间的距离,首先将几个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止。把这个过程作成一个聚类谱系图。这种方法即系统聚类。第41页,共60页,星期日,2025年,2月5日系统聚类分析的涵义及步骤基本思想:是把样品看成m维(m个指标)空间的点,而把每个变量看成m维空间的坐标轴。基本方法:是将n个样品自成一类,先计算1/2n(n-1)个相似性测度或距离,并且把具有最小测度的两个样品合并成两个元素的类,然后按照某种聚类方法计算这个类和其余n-2个样品之间的距离,这样一直持续下去,并类过程中,每一步所做的并类(样品与样品,样品与类、类与类)都要使测度在系统中保持最小,每次减少一类,直到所有样品都归为一类为止。第42页,共60页,星期日,2025年,2月5日第七讲聚类分析第1页,共60页,星期日,2025年,2月5日第一节聚类分析概述多元统计分析中的分类方法聚类分析的涵义聚类分析方法第2页,共60页,星期日,2025年,2月5日多元统计分析中的分类方法一类:研究对象存在事先分类情况下,判断某个未知样品的归类一类:研究对象不存在事先分类情况下,进行数据结构的分类第3页,共60页,星期日,2025年,2月5日聚类分析的涵义是一种将样品或变量,按照它们在性质上的亲疏程度进行分类的多元统计分析方法。描述亲疏程度的途径:计算多维空间上点的距离;计算相似系数或相关系数第4页,共60页,星期日,2025年,2月5日聚类分析方法按照聚类方法的不同系统聚类分析法动态聚类分析法模糊聚类分析法图论聚类分析法聚类预报法按照分类对象划分第5页,共60页,星期日,2025年,2月5日系统聚类分析法是在样品距离的基础上定义类与类的距离,首先将个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据

文档评论(0)

xiaoshun2024 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档