《应用多元分析》第四版(第六章)分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章聚类分析§6.1引言§6.2距离和相似系数§6.3系统聚类法§6.4动态聚类法1§6.1引言聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。2相似性的不同定义3§6.2距离和相似系数相似性度量:距离和相似系数。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。变量的测量尺度:间隔、有序和名义尺度。间隔变量:变量用连续的量来表示,如长度、重量、速度、温度等。有序变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。名义变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。4对于间隔变量,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。本章主要讨论具有间隔尺度变量的样品聚类分析方法。一、距离二、相似系数5一、距离设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yp)′为两个样品,则所定义的距离一般应满足如下三个条件:(i)非负性:d(x,y)≥0,d(x,y)=0当且仅当x=y;(ii)对称性:d(x,y)=d(y,x);(iii)三角不等式:d(x,y)≤d(x,z)+d(z,y)。6常用的距离1.明考夫斯基(Minkowski)距离2.兰氏(Lance和Williams)距离3.马氏距离4.斜交空间距离71.明考夫斯基距离明考夫斯基距离(简称明氏距离): 这里q0。明氏距离的三种特殊形式:(i)当q=1时, ,称为绝对值距离,常被形象地称作“城市街区”距离;(ii)当q=2时, ,这是欧氏距离,它是聚类分析中最常用的一个距离;(iii)当q=∞时, ,称为切比雪夫距离。8绝对值距离图示9对各变量的数据作标准化处理当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中和sii分别为xi的样本均值和样本方差。102.兰氏距离当所有的数据皆为正时,可以定义x与y之间的兰氏距离为该距离与各变量的单位无关,且适用于高度偏斜或含异常值的数据。113.马氏距离x和y之间的马氏距离为 其中S为样本协差阵。124.斜交空间距离x和y之间的斜交空间距离定义为其中rij是第i个变量与第j个变量间的相关系数。当p个变量互不相关时,该距离即为欧氏距离的1/p倍。13名义尺度变量的一种距离定义例6.2.1某高校举办一个培训班,从学员的资料中得到这样六个变量:性别(x1),取值为男和女;外语语种(x2),取值为英、日和俄;专业(x3),取值为统计、会计和金融;职业(x4),取值为教师和非教师;居住处(x5),取值为校内和校外;学历(x6),取值为本科和本科以下。现有两名学员: x=(男,英,统计,非教师,校外,本科)′y=(女,英,金融,教师,校外,本科以下)′一般地,若记配合的变量数为m1,不配合的变量数为m2,则它们之间的距离可定义为故按此定义,本例中x与y之间的距离为2/3。14二、相似系数变量之间的相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。15相似系数一般需满足的条件(1)cij=±1,当且仅当xi=axj+b,a(≠0)和b是常数;(2)|cij|≤1,对一切i,j;(3)cij=cji,对一切i,j。16两个向量的夹角余弦171.夹角余弦变量xi与xj的夹角余弦定义为 它是Rn中变量xi的观测向量(x1i,x2i,⋯,xni)′与变量xj的观测向量(x1j,x2j,⋯,xnj)′之间夹角θij的余弦函数,即cij(1)=cosθij。182.相关系数变量xi与xj的相关系数为如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。19相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。由距离来构造相似系数总是可能的,如令这里dij为第i个样品与第j个样品的距离,显然cij满足定义相似系数的三个条件,故可作为相似系数。距离必须满足定义距离的三个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵(cij)为非负定时,如令则dij满足距离定义的三个条件。20§6.3系统聚类法系统聚类法(或层次聚类法,hierarchicalclusteringmethod)是通过一系列相继的合并或相继的分割来进行的,分为聚集的(

文档评论(0)

baobei + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档