第一节系统聚类分析.docVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 聚类分析 (一)教学目的 通过本章的学习,1、; 2、; 3、()内容1、 2、3、个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过程图称为聚类谱系图。 2、动态聚类分析法。是将个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。这种分类方法一般称为动态聚类法,也称为调优法。 3、模糊聚类分析法。是利用模糊数学中模糊集理论来处理分类问题的方法,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。 4、图论聚类分析法。是利用图论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。 5、聚类预报法。是利用聚类方法处理预报问题的方法。主要应用于处理一些出现异常数据的情况,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报可以弥补回归分析及判别分析方法之不足,是一个很值得重视的方法。 (二)按照分析对象不同,可以分为型聚类分析和型聚类分析。 型聚类分析法是对样品进行的分类处理,可以揭示样品之间的亲疏程度。型聚类分析法是对变量进行的分类处理,可以了解变量之间,以及变量组合之间亲疏程度。 根据型聚类的结果,可以选择最佳的变量组合进行回归分析或者型聚类分析。其中,选择最佳变量的一般方法是,在聚合的每类变量中,各选出一个具有代表性的变量作为典型变量,其中选择的依据是。 :表示每个变量与其同类的其它变量的相关系数的平方的均值。为该类中变量的个数。应用中,挑选值最大的变量作为该类的典型变量。 三、聚类分析中样品或变量亲疏程度的测定 1、变量类型与数据变换 通常变量类型按照计量尺度的不同,分为定类尺度,定序尺度,定距尺度,定比尺度变量。其中,前两者一般又称为定性资料,后两者一般又称为定量资料。在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定义与变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大的差异。 另外,由于样本数据受量纲和数量级的影响,在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理,以便使不同量纲、不同数量级的数据能放在一起比较。常用的数据变换方法有以下几种: (1)中心化变换 中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。即 对于一个样本数据,观测个指标,个样品的数据资料阵为: 设中心化后的数据为 则有 其中 进行了中心化变换后的数据特点是,其每列数据之和均为0。 (2)规格化变换(极差规格变换) 规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化数据。规格化后的数据为: 进行了规格化变换后的数据特点是,将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。 (3)标准化变换 标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除以标准差,即 其中 进行了标准化变换后的数据特点是,每列数据的平均值为0,方差为1,同时消除了量纲的影响。使用标准差处理后,在抽样样本改变时,它仍保持相对稳定性。 (4)对数变换 对数变换主要是对原始数据取对数。即 对数变换后的数据特点是,可将具有指数特征的数据结构化为线性数据结构。 此外,还有平方根变换、立方根变换等。极差标准化变换和规格化变换类似。它是把每个变量的样本极差皆化为1,排除量纲的干扰。立方根变换和平方根变换的主要作用是把非线性数据结构变为线性数据结构,以适应某些统计方法的需要。 2、多维空间的距离 对于个观测指标,个样品的样本数据,每个样品有个变量,故每个样品都可以看成是维空间上的一个点,个样品就是维空间上的个点。聚类分析中,对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。因此需定义样品之间的距离,即第个样品与第个样品之间的距离,记为,所定义的距离一般满足以下四个条件: ① 对于一切; ② 当且仅当时 ③ 对于一切 ④ 对于一切 对于定量数据资料常用的距离有以下几种: (1)明氏(明科夫斯基,Minkowski)距离 第个样品与第个样品之间的明氏距离公式为 这里为某一自然数,明氏距离是一最常用最直观的距离。 当时, ,则称为绝对值距离。 当时,,则称为欧氏距离。 欧氏距离是聚类分析中用得最广泛的距离,但该距离与个变量的量纲有关,没有考虑指标间的相关性

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档