聚类分析的方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析的方法 一、系统聚类法 系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项口)归并为若干不同的 类别(以分类树形图表示),使得每一类别内的所有个体之间具有较密切的关系,而各类别 之问的相互关系相对地比较疏远。系统聚类分析最后得到一个反映个体间亲疏关系的H然谱 系,它比较客观地描述了分类对象的各个体之间的差异和联系。根据分类日的不同,系统聚 类分析可分为两类:一类是对变量分类,称为R型分析;另一类是对样品分类,称为Q型 分析。系统聚类分析法基本步骤如下(许志友,1988) o (一)数据的正规化和标准化 由于监测时所得到的数值齐变景之间相差较大,或因齐变量所取的度量单位不同,使数 值差别增人,如果不对原始数据进行变换处理,势必会突出监测数据屮数值较人的一些变量 的作川,而消弱数值较小的另一些变量的作丿II,克服这种弊病的办法是对原始数据正规化或 标准化,得到的数据均与监测时所取的度量单位无关。 设原始监测数据为Xij (i = 1, 2, n; j = 1, 2, m; n为样品个数,m为变量个数), 正规化或标准化处理后的数据为Zij (i=1, 2, n; j=1, 2, m)o 正规化计算公式如F: Z 一兀厂沙; J喇盼曲Xj; (7-32) (i=1, 2,…,n; j = 1, 2,…,m) 标准化计算公式如下: (7-33) (i=1, 2,…,m j=1, 2,…,m) 其屮: (二)数据分类尺度计算 为了对数据勺Zij进行分类,须对该数据进一步处理,以便从屮确定出分类的尺度,下列 出分类尺度计算的四种方法。 1 ?相关系数R 两两变景间简单相关系数定义为: R??= 忆⑵-Wjk可2 Vi(=i (7-34) 其屮 其屮 一般用于变量的分类(R型)。有一 1R1且氏■愈接近1时,则此两变量愈亲近,R* 愈接近?1,则关系愈疏远。 2相似系数吊 相似系数的意义是,把每个样品看做m维空间屮的一个向量,n个样品相当于m维空间 屮的n个向量。第i个样品与第j个样殆之间的相似系数是用两个向量之间的夹角余弦來定 义,BP: E _ z 灰 Sij’osQ 厂 一 V k-1 k-1 (7 ?35) (i, j = 1, 2, ..., m) 常用于样品间的分类(Q型)。有一仁令0,且可的值愈大,愈接近I,两个样品关系 愈亲近。 欧氏距离°, 欧氏距离D■含义为,对每个样品,把它的m个因索(变量)的值看做m维空I可屮的一 个点,贝山2个样品就是7n维系空间屮n个点,则第i个样品与第j个样品之间的距离 2 Dij厂 ZQ 为: g (7-36) (j, j=1, 2,…,m) —?般用做样品间的分类。显然有Os。叱1,距离D■愈小,表示两个样品愈亲密,反之则 疏远。 斜交空间距离De 由于变量间往往存在程度不同的相关关系,以欧氏距离计算距离,会使结果发生偏差, 因而对样品i, j之问的距离可用更广义的斜交空间距离作为分类尺度。 [m m Diij =、冈艺⑴让芒上) Vk=l 1^1 (7-37) (i, j = 1, 2, n) 其屮 (Zil?朮 刼=广 V Fl i=l (k, L=1, 2, ..., m) 一般用于样品的分类。有osWg,且距离g愈小表示两个样品愈亲密。 (三)分类树形图的绘制 绘制分类树形图的法则是使相似程度高的样本或样本所代表的类优先集屮在一起,用较 短的线联结起来,而相似程度低的样本或类之间川较长的线联结。绘制分类树形图对采川两 种方法。 -?次形成分类法 首先选岀相关系数最人的元索对(或距离矩阵中最小的元索对),然厉选岀次人的元索 对(或距离矩阵屮次小的元索对),依次类推。选出元索对厉,将各元索对按卜?列准则连接 成群: 若两个元索在已形成的群屮没有出现过,则形成一个独立的新群; 若两个元索中有一个是在已经分好的群中岀现过,则另一个加入该群; 若两个元索都在已分好的两群屮,则把两群连一起; 若两个元索都在同一?群屮,则这对元索就不再作处理。 这样反复进行,直到所有的元素都分群完毕为止,形成一?个树形图。 2逐步形成分类法 假设分类是对样品进行的,且采用的分类尺度是距离。从距离矩阵屮选出最小的元素D*, 这说明第k个样品与第L个样品距离最近(关系最亲密)应首先归入一?组,然后按下而方 法进行计算: 首先,把第五个样品与第L个样殆的相应的各个变量取平均值,用它代替第k个样品, 并取消第j个样品,形成新的样品数据,它比归并前的样品数目减少一个(当为组合变最时 应取加权平均值)。 其次,根据新的样品数据,重新计算距离矩阵。 再从新的距离矩阵屮选出最小的D纶,说明新的样殆数据屮第L个样品与第匸个样品距 离最近(关系最密切),应将它们归为一组,然厉重复进行上述(1)、(2)、(3)

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档