多元统计分析第五章聚类分析2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元统计分析第五章聚类分析2

第五章 聚类分析 Q型――对样品进行分类。即把不同的物体(如岩石标本、样品等物种或人种)进行比较,目的是要确定不同物体之间的关系,从而将物体进行归类分群。 R型――对变量进行分类。即属于同一物种的各种属性,即各类变量(如岩石厚度、岩石成分及各种化验观测数据)进行比较,目的是要不同变量之间的关系,从而对变量进行分类。 例 在煤田地质勘探过程中,有时煤系含有多个煤层,如果标志层不明显,只用宏观的标志进行煤层对比较为困难,这时就可用聚类分析进行煤层的数字分类,从而达到对比煤层的目的。 做法是在一个煤田或勘探区内,选择若干个煤钻孔,对所有煤层进行工业分析、光谱分析等取得一批实验观测数据(如下表)。 多维空间的点就不能用图形直观的表现出来。 表示多维空间点与点之间的疏密关系的量,称为相似性度量(相似性统计量),如相似系数、相关系数、距离系数、离差平方和增量等。 第二节 数据规则化 为了消除数量级的影响,而对数据进行规则化。 1.数据的标准化 标准化后的数据特点是:平均值为0,方差为1,数据有正有负。 2.数据正规化 分类统计量 分类统计量:用来衡量物体或变量间亲疏程度的定量指标。 主要有:相似系数、相关系数、距离系数、误差平方和增量等 相似系数(cosθ) 利用两个样品或变量在多维空间中所代表的点,其分别与原点相连后形成的夹角(θ)来定其亲疏程度。两物体间θ越小,则越相似,越大,则越疏远。 已知条件为一组xij(i=1,2,…n,j=1,2,3,…m) 要求取两两样品间的θ角。 下面先以两维为例来看一下如何求取θ 推广至m维空间,即每个样品有m个变量(x1, x1, …,xm),为m维空间中的一个向量 由内积公式知 对n个样品可得(Q型) R型: R型中相似系数 用于变量间的比较。 令Sik=cosθik θ=0°~90°,所以cosθik=0~1 对于N个样品,求得两两样品间的Sik,(i=1,2,..n,k=1,2,…n) 注意 标准化后,因为xij有负值,所以θ=0°~90°,效果不好 而正规化后,性质不变。 二、相关系数 以R型为例 在R型分析中,定义第j个变量和第l个变量之间的相关系数为: (理论相关系数) Cov为协方差, 为标准差。 。 rjk=-1~1,R越大,i变量和k变量间相关性越好。 对于R型聚类分析,可以求出两两变量间的相关系数,得矩阵 在Q型分析中,定义第i个样品和第k个样品之间的相关系数为: 相关系数矩阵为: 三、欧氏距离系数 在多维(多变量)直角坐标系中,两样品间的距离 用于Q型 若两个样品A、B各自只有一个观测值 xA、xB、时,每个样品有两个变量,则 每个样品有两个变量,则 推广到m维空间中,即设有n个 样品,每个样品有m个变量(x1、x2 、… 、x1),若有i、k两个样品点, 其坐标分别为: 四、斜交距离(系数)矩阵 用于Q型。 斜交距离实际上是斜交(仿射)坐标系下两点之间在欧氏空间的距离,或说是校正到欧氏空间的距离,是由斜交分量表示的欧氏距离。 五、离差平方和增量( ) 误差平方和增量以组内方差为基础推导的,多用于Q型聚类分析。 定义 xijk (k=1,2,…,G;j=1,2,…,m;i=1,2,…,nk) 为第k类中第i个样品的第j个变量的计量; 2. 在系统聚类法中,开始时每个样品自成一类(每类包含一个样品),此时对每类都有 现在考虑合并问题,假如原有两类p、q要合并成新类t,各类样品数分别为np, nq, nt,平均值分别为 上述过程可以写成联接表。 最后画出聚类图 第四节 谱系图的形成 经过聚类分析,形成的分类结构图称为谱系图 利用上面的分类统计量初始矩阵,经过一定方法处理,形成谱系图。 一、谱系图成图原则 (1)若选出的两个变量(或样品)在已形成的群中都未出现过,则把它们形成一个独立的新群; (2)若选出的两个变量(或样品)中,有一个在已形成的群中出现过,则把另一个变量(或样品)加入到该群中; (3)若选出的两个变量(或样品)者分别在已形成的群中,则把这两个群连在一起; (4)若选出的两个变量(或样品)在已出现在同一群中,则此两变量(或样品)就不再分群了; 二、成图方法 从例出发,例数据见书上。共6个样品, 每个样品有6个变量(属性)(Ni,Co,Cu,Cr,S,As)。 其相关系数矩阵

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档