数学地质系列______4聚类分解.ppt

  1. 1、本文档共127页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
类与类之间的距离:定义为它们的重心(均值)之间的(平方)欧氏距离。 设GK和GL的重心分别为xk和xL, 则GK与GL之间的平方距离为: (centroid method) 4. 重心法 设某一步将GK和GL合并的新类为GM, 它们的重心分别是Xk、XL、Xm, 它们各有nk、nL、nm(nm=nk+nL)个样品, 显然,新类GM与任一类GJ(重心为xJ)的平方距离是 这就是重心法的距离递推公式。 4. 重心法 重心法的归类步骤与以上三种方法基本上一样,所不同的是 每合并一次类,就要重新计算新类的重心及各类与新类的距离。 重心法在处理异常值方面比其它系统聚类法更稳健,有很好的代表性。 4. 重心法 常用系统聚类方法 (centroid method) 5. Ward最小方差法 常用系统聚类方法 (Ward’ minimum variance method ) 样品间:欧氏距离 类类间:离差平方和增量法 Ward最小方差法 由沃德提出,其思想来源于方差分析。 如果分类正确, Cluster K Cluster L Cluster M 同类样品的离差平方和 应当较小, 类与类之间的离差平方和应当较大。 设将n个样品分成k类:G1, G2, …, Gk, 用 表示 中的第i个样品(注意 是p维向量), nt 表示Gt中的样品个数, 是Gt的重心,则Gt中样品的离差平方和为: Ward最小方差法 k个类的类内离差平方和: 先将n个样品各自成一类,此时总离差平方和W=0, 然后每次将其中某两类合并为一类 (因每缩小一类离差平方和就要增大), 每次选择使总离差平方和w增加最小的两类进行合并 直到所有的样品归为一类为止。 5.Ward最小方差法 基本思想: 系统聚类小结 几种系统聚类法,并类的原则和步骤基本一致, 所不同的是类与类之间的距离有不同的定义,依此所给出的新类与任一类的距离公式不同。 可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图(有利于计算机程序的编制)。 Lance和Williams于1967年将其统一为: 各种系统聚类法公式的参数 在实际应用中,一般采用以下两种处理方法: 根据分类问题本身的专业知识,结合实际需要,选择分类方法,并确定分类个数。 用多种分类方法去作,取出结果中的共性来,如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质,而将有争议的样品暂放一边或用其它办法(如判别分析)去归类。 系统聚类法的步骤 1.数据变换 为了便于比较、计算上的方便或改变数据的结构; 选择 度量样品间距离的定义(如欧氏距离)及 度量类间距离的定义(如最短距离法)。 计算n个样品两两间的距离dij, 得样品间的距离矩阵D(0); 3. 一开始(第一步:i=1)n个样品各自构成一类, 类的个数k=n个类,Gi ={X(i)}}(i=1,….n), 此时类间的距离就是样品间的距离(即D(1) = D(0)); 系统聚类法的步骤 4.合并距离最近的两类为一新类; 5.计算新类与当前其它各类的距离,得新的距离矩阵D(i), 若合并后类的总个数k大于1,重复(3)和(4)步, 直到类的个数为1时止; 系统聚类法的步骤 6.画谱系聚类图; 7.决定类的个数及各类的成员。 系统聚类法的步骤 可选择适当的距离,计算距离 把每个样品看成一类,构造n个类 合并最近的两类为一新类 计算新类与当前各类的距离 判断 画聚类图 根据实际情况,确定类和类的个数 仅有一个类 不是仅有一个类 采用系统聚类法 第五节 应用实例 例1:从某地超基性岩石的某些样品中,得到与矿化度有关的一些元素的光谱分析数据。依次为:Ni,Co,Cu,Cr,S,As的原始数据 例2:某地煤层采样10块,做了显微组分含量分析,6个变量分别为镜质体、壳质体、半丝质体、其他惰性体、黄铁矿、其他矿物。 教材5.1 作 业 1.什么是聚类分析,简述其基本思想 2.试验五第一、二题,要求用手算和程序计算两种方法 * * * 把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。 其中 ,可根据R可对n个样品进行分类。 2.相关系数: 第四节 系统聚类法 系统聚类分析的基本思想 系统聚类法(分层聚类): 是诸聚类分析方法中使用最多的一种, 它是将类由多变到少的一种方法。 系统聚类分析的基本思想: 首先将所研究的每个样品各自看成一类, 然后根据样品间

文档评论(0)

a336661148 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档