第五章聚类分析2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
推广到m维空间中,即设有n个 样品,每个样品有m个变量(x1、x2 、… 、x1),若有i、k两个样品点, 其坐标分别为: 则i,k两点间的距离为: 四、斜交距离(系数)矩阵 用于Q型。 斜交距离实际上是斜交(仿射)坐标系下两点之间在欧氏空间的距离,或说是校正到欧氏空间的距离,是由斜交分量表示的欧氏距离。 五、离差平方和增量( ) 误差平方和增量以组内方差为基础推导的,多用于Q型聚类分析。 定义 xijk (k=1,2,…,G;j=1,2,…,m;i=1,2,…,nk) 为第k类中第i个样品的第j个变量的计量; 为第k 类中关于变量j的平均值 1. 称为第k类的组内离差平方和。 例: 有6个样品,每个样品两个变量,分成三类,数据如下: nA=1, nB=2, nC=1, EA=0, EB=1, EC=5。 2. 在系统聚类法中,开始时每个样品自成一类(每类包含一个样品),此时对每类都有 Ek=0 现在考虑合并问题,假如原有两类p、q要合并成新类t,各类样品数分别为np, nq, nt,平均值分别为 , (j=1,2,…,m),显然 nt=np+nq, 称: 为合并时的离差平方和增量。 如上例中B与C合并,先算出EBC=40, 则 由 和 可得: 由 3. 上式进一步整理化简得: 与两类中的各变量的重心(平均值)的距离之差成正比, 并以 为比例系数。 该式说明p、q两类合并后离差平方和增量 4. 当p、q两类合并成t时, 其它类(设为r)与p、q的离差平方和增量 、 要刷新为 ,可用刷新方程 5. 离差平方和增量法聚类过程 设样品数为n,每个样品有m个变量,开始时每个样 品自成一类,计算初始离差平方和矩阵 从中选择 最小的两类归并为一类(t),再求类t与其它类的误差平方和增量(利用刷新方程), (n×n阶)? ((n-1)×(n-1)阶)。再从 中选择 最小的两类归并,直至全部样品归并成一类为止。 要注意的是每归并一次 的阶就减少1,到最后变成2×2阶。 再求类t与其它类的误差平方和增量(利用刷新方程), 例: 有一批样品,原始数据为 初始离差平方和矩阵 可以看出,其中 =1为最小, 表明类2与3最相似,将它们合并成新类, 现在是 =5最小,故将类4与5合并成新类, 再将类1_2与4_5合并成新类, 至此,只剩下2类,1于2_3_4_5, 它们的离差平方和增量为80,故不需计算,将它们合并成一类即可。 上述过程可以写成联接表。 L(联接序号) 联接样品 ?E 1 2~3 1 2 4~5 5 3 2_3~4_5 34 4 1~2_3_4_5 80 最后画出聚类图 第四节 谱系图的形成 经过聚类分析,形成的分类结构图称为谱系图 利用上面的分类统计量初始矩阵,经过一定方法处理,形成谱系图。 一、谱系图成图原则 (1)若选出的两个变量(或样品)在已形成的群中都未出现过,则把它们形成一个独立的新群; (2)若选出的两个变量(或样品)中,有一个在已形成的群中出现过,则把另一个变量(或样品)加入到该群中; (3)若选出的两个变量(或样品)者分别在已形成的群中,则把这两个群连在一起; (4)若选出的两个变量(或样品)在已出现在同一群中,则此两变量(或样品)就不再分群了; 二、成图方法 从例出发,例数据见书上。共6个样品, 每个样品有6个变量(属性)(Ni,Co,Cu,Cr,S,As)。 其相关系数矩阵为 Ni Co Cu Cr S As Ni 1 0.8462 0.7579 0.6431 0.5039 0.5603 Co 1 0.9802 0.2419 0.7370 0.4241 Cu 1 0.1811 0.7210 0.3930 Cr 1 0.3075 0.1998 S 1 0.6802 As 一、一次计算成群法 特点是:所有的成群归并工作都在初始分类统计量矩阵中完成,不需要再计算,是最简便,运算量最少的。 方法:首先从相关系数矩阵中选择相关系数数值最大的一对变量p,q(若pq)开始在谱系图中排列,抹去q行q列,然后在余下的矩阵中选择次大的,依次进行进行。直到所有的变量或样品全部

文档评论(0)

企业资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档