聚类分析的方法.docVIP

下载本文档

57
0
约6.71千字
约 16页
2021-03-10 发布于广东
举报
版权申诉

聚类分析的方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析的方法一、系统聚类法系统聚类分析法就是利用一定的数学方法将样品或变量（所分析的项口）归并为若干不同的类别（以分类树形图表示），使得每一类别内的所有个体之间具有较密切的关系，而各类别之问的相互关系相对地比较疏远。系统聚类分析最后得到一个反映个体间亲疏关系的H然谱系，它比较客观地描述了分类对象的各个体之间的差异和联系。根据分类日的不同，系统聚类分析可分为两类：一类是对变量分类，称为R型分析；另一类是对样品分类，称为Q型分析。系统聚类分析法基本步骤如下（许志友，1988） o （一）数据的正规化和标准化由于监测时所得到的数值齐变景之间相差较大，或因齐变量所取的度量单位不同，使数值差别增人，如果不对原始数据进行变换处理，势必会突出监测数据屮数值较人的一些变量的作川，而消弱数值较小的另一些变量的作丿II,克服这种弊病的办法是对原始数据正规化或标准化，得到的数据均与监测时所取的度量单位无关。设原始监测数据为Xij （i = 1, 2, n； j = 1, 2, m； n为样品个数，m为变量个数）, 正规化或标准化处理后的数据为Zij （i=1, 2, n； j=1, 2, m）o 正规化计算公式如F： Z 一兀厂沙； J喇盼曲Xj; （7-32）（i=1, 2,…，n； j = 1, 2,…，m）标准化计算公式如下： (7-33) (i=1, 2,…，m j=1, 2,…，m) 其屮: （二）数据分类尺度计算为了对数据勺Zij进行分类，须对该数据进一步处理，以便从屮确定出分类的尺度，下列出分类尺度计算的四种方法。 1 ?相关系数R 两两变景间简单相关系数定义为： R??= 忆⑵-Wjk可2 Vi(=i (7-34) 其屮其屮一般用于变量的分类（R型）。有一 1R1且氏■愈接近1时，则此两变量愈亲近，R* 愈接近?1,则关系愈疏远。 2相似系数吊相似系数的意义是，把每个样品看做m维空间屮的一个向量，n个样品相当于m维空间屮的n个向量。第i个样品与第j个样殆之间的相似系数是用两个向量之间的夹角余弦來定义，BP： E _ z 灰 Sij’osQ 厂一 V k-1 k-1 (7 ?35) (i, j = 1, 2, ..., m) 常用于样品间的分类(Q型)。有一仁令0,且可的值愈大，愈接近I,两个样品关系愈亲近。欧氏距离°, 欧氏距离D■含义为，对每个样品，把它的m个因索(变量)的值看做m维空I可屮的一个点，贝山2个样品就是7n维系空间屮n个点，则第i个样品与第j个样品之间的距离 2 Dij厂 ZQ 为： g (7-36) (j, j=1, 2,…，m) —?般用做样品间的分类。显然有Os。叱1,距离D■愈小，表示两个样品愈亲密，反之则疏远。斜交空间距离De 由于变量间往往存在程度不同的相关关系，以欧氏距离计算距离，会使结果发生偏差, 因而对样品i, j之问的距离可用更广义的斜交空间距离作为分类尺度。 [m m Diij =、冈艺⑴让芒上) Vk=l 1^1 (7-37) (i, j = 1, 2, n) 其屮（Zil?朮刼=广 V Fl i=l （k, L=1, 2, ..., m）一般用于样品的分类。有osWg,且距离g愈小表示两个样品愈亲密。（三）分类树形图的绘制绘制分类树形图的法则是使相似程度高的样本或样本所代表的类优先集屮在一起，用较短的线联结起来，而相似程度低的样本或类之间川较长的线联结。绘制分类树形图对采川两种方法。 -?次形成分类法首先选岀相关系数最人的元索对（或距离矩阵中最小的元索对），然厉选岀次人的元索对（或距离矩阵屮次小的元索对），依次类推。选出元索对厉，将各元索对按卜?列准则连接成群：若两个元索在已形成的群屮没有出现过，则形成一个独立的新群；若两个元索中有一个是在已经分好的群中岀现过，则另一个加入该群；若两个元索都在已分好的两群屮，则把两群连一起；若两个元索都在同一?群屮，则这对元索就不再作处理。这样反复进行，直到所有的元素都分群完毕为止，形成一?个树形图。 2逐步形成分类法假设分类是对样品进行的，且采用的分类尺度是距离。从距离矩阵屮选出最小的元素D*, 这说明第k个样品与第L个样品距离最近（关系最亲密）应首先归入一?组，然后按下而方法进行计算：首先，把第五个样品与第L个样殆的相应的各个变量取平均值，用它代替第k个样品，并取消第j个样品，形成新的样品数据，它比归并前的样品数目减少一个（当为组合变最时应取加权平均值）。其次，根据新的样品数据，重新计算距离矩阵。再从新的距离矩阵屮选出最小的D纶,说明新的样殆数据屮第L个样品与第匸个样品距离最近（关系最密切），应将它们归为一组，然厉重复进行上述（1）、（2）、（3）