多元统计分析第五章聚类分析2.pptVIP

下载本文档

8
0
约4.34千字
约 61页
2018-02-13 发布于江西
举报
版权申诉

多元统计分析第五章聚类分析2.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多元统计分析第五章聚类分析2

第五章聚类分析 Q型――对样品进行分类。即把不同的物体（如岩石标本、样品等物种或人种）进行比较，目的是要确定不同物体之间的关系，从而将物体进行归类分群。 R型――对变量进行分类。即属于同一物种的各种属性，即各类变量（如岩石厚度、岩石成分及各种化验观测数据）进行比较，目的是要不同变量之间的关系，从而对变量进行分类。例在煤田地质勘探过程中，有时煤系含有多个煤层，如果标志层不明显，只用宏观的标志进行煤层对比较为困难，这时就可用聚类分析进行煤层的数字分类，从而达到对比煤层的目的。做法是在一个煤田或勘探区内，选择若干个煤钻孔，对所有煤层进行工业分析、光谱分析等取得一批实验观测数据（如下表）。多维空间的点就不能用图形直观的表现出来。表示多维空间点与点之间的疏密关系的量，称为相似性度量(相似性统计量)，如相似系数、相关系数、距离系数、离差平方和增量等。第二节数据规则化为了消除数量级的影响，而对数据进行规则化。 1.数据的标准化标准化后的数据特点是：平均值为０，方差为１，数据有正有负。 2.数据正规化分类统计量分类统计量：用来衡量物体或变量间亲疏程度的定量指标。主要有：相似系数、相关系数、距离系数、误差平方和增量等相似系数（cosθ）利用两个样品或变量在多维空间中所代表的点，其分别与原点相连后形成的夹角(θ)来定其亲疏程度。两物体间θ越小，则越相似，越大，则越疏远。已知条件为一组xij(i=1,2,…n,j=1,2,3,…m) 要求取两两样品间的θ角。下面先以两维为例来看一下如何求取θ 推广至m维空间，即每个样品有m个变量（x1, x1, …,xm）,为m维空间中的一个向量由内积公式知对n个样品可得(Q型) R型： R型中相似系数用于变量间的比较。令Ｓik=cosθik θ＝０°~90°,所以cosθik=0~1 对于Ｎ个样品，求得两两样品间的Ｓik，（i=1,2,..n,k=1,2,…n）注意标准化后，因为xij有负值，所以θ＝０°~90°，效果不好而正规化后，性质不变。二、相关系数以Ｒ型为例在R型分析中，定义第j个变量和第l个变量之间的相关系数为：（理论相关系数） Cov为协方差，为标准差。。 rjk=-1~1,R越大，i变量和k变量间相关性越好。对于Ｒ型聚类分析，可以求出两两变量间的相关系数，得矩阵在Q型分析中，定义第i个样品和第k个样品之间的相关系数为：相关系数矩阵为：三、欧氏距离系数在多维（多变量）直角坐标系中，两样品间的距离用于Q型若两个样品A、B各自只有一个观测值 xA、xB、时，每个样品有两个变量，则每个样品有两个变量，则推广到m维空间中，即设有n个样品，每个样品有m个变量（x1、x2 、… 、x1），若有i、k两个样品点，其坐标分别为：四、斜交距离（系数）矩阵用于Q型。斜交距离实际上是斜交(仿射)坐标系下两点之间在欧氏空间的距离，或说是校正到欧氏空间的距离，是由斜交分量表示的欧氏距离。五、离差平方和增量（）误差平方和增量以组内方差为基础推导的，多用于Q型聚类分析。定义 xijk (k=1,2,…,G;j=1,2,…,m;i=1,2,…,nk) 为第k类中第i个样品的第j个变量的计量； 2. 在系统聚类法中，开始时每个样品自成一类(每类包含一个样品)，此时对每类都有现在考虑合并问题，假如原有两类p、q要合并成新类t,各类样品数分别为np, nq, nt,平均值分别为上述过程可以写成联接表。最后画出聚类图第四节谱系图的形成经过聚类分析，形成的分类结构图称为谱系图利用上面的分类统计量初始矩阵，经过一定方法处理，形成谱系图。一、谱系图成图原则（1）若选出的两个变量（或样品）在已形成的群中都未出现过，则把它们形成一个独立的新群；（2）若选出的两个变量（或样品）中，有一个在已形成的群中出现过，则把另一个变量（或样品）加入到该群中；（3）若选出的两个变量（或样品）者分别在已形成的群中，则把这两个群连在一起；（4）若选出的两个变量（或样品）在已出现在同一群中，则此两变量（或样品）就不再分群了；二、成图方法从例出发，例数据见书上。共６个样品，每个样品有６个变量（属性）（Ni,Co,Cu,Cr,S,As）。其相关系数矩阵