应用多元分析聚类分析详细介绍第三版.pptxVIP

下载本文档

1
0
约8.92千字
约 74页
2020-02-01 发布于上海
举报
版权申诉

应用多元分析聚类分析详细介绍第三版.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第六章聚类分析§6.1 引言§6.2 距离和相似系数§6.3 系统聚类法§6.4 动态聚类法 §6.1 引言判别分析和聚类分析是两种不同目的的分类方法，它们所起的作用是不同的。判别分析方法假定组（或类）已事先分好，判别新样品应归属哪一组，对组的事先划分有时也可以通过聚类分析得到。聚类分析：将分类对象分成若干类，相似的归为同一类，不相似的归为不同的类。聚类分析分为Q型（分类对象为样品）和R型（分类对象为变量）两种。相似性的不同定义§6.2 距离和相似系数相似性度量：距离和相似系数。距离常用来度量样品之间的相似性，相似系数常用来度量变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义，而这些定义与变量的类型有着非常密切的关系。变量的测量尺度通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。间隔尺度变量：变量用连续的量来表示，如长度、重量、速度、温度等。有序尺度变量：变量度量时不用明确的数量表示，而是用等级来表示，如某产品分为一等品、二等品、三等品等有次序关系。名义尺度变量：变量用一些类表示，这些类之间既无等级关系也无数量关系，如性别、职业、产品的型号等。本章主要讨论具有间隔尺度变量的样品聚类分析方法。一、距离设xij为第i个样品的第j个指标，数据矩阵列于表6.2.1。表6.2.1数据矩阵变量x1x2?xp样品1x11x12?x1p2x21x22?x2p????nxn1xn2?xnp距离dij一般应满足的四个条件(i) dij≥0，对一切i,j；(ii) dij=0，当且仅当第i个样品与第j个样品的各变量值相同；(iii) dij=dji，对一切i,j；(iv) dij≤dik+dkj，对一切i,j,k。常用的距离1.明考夫斯基(Minkowski)距离2.兰氏(Lance和Williams)距离3.马氏(Mahalanobis)距离4.斜交空间距离1.明考夫斯基距离第i个样品与第j个样品间的明考夫斯基距离（简称明氏距离）定义为这里q为某一自然数。明氏距离有以下三种特殊形式：（i）当q=1时，，称为绝对值距离，常被形象地称作“城市街区”距离；（ii）当q=2时，，称为欧氏距离，这是聚类分析中最常用的一个距离；（iii）当q=∞时，，称为切比雪夫距离。绝对值距离图示对各变量的数据作标准化处理当各变量的单位不同或测量值范围相差很大时，应先对各变量的数据作标准化处理。最常用的标准化处理是，令其中和分别为第j个变量的样本均值和样本方差。2.兰氏距离当xji＞0，j=1,2,?,n，i=1,2,?,p时，可以定义第i个样品与第j个样品间的兰氏距离为这个距离与各变量的单位无关。由于它对大的异常值不敏感，故适用于高度偏斜的数据。明氏距离和兰氏距离都没有考虑变量间的相关性，因此这两种距离更适合各变量之间互不相关的情形。3.马氏距离第i个样品与第j个样品间的马氏距离为其中xi=(xi1,xi2,? ,xip)′，xj=(xj1,xj2,? ,xjp)′，S为样本协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性，并且与各变量的单位无关。但马氏距离有一个很大的缺陷，就是马氏距离公式中的S难以确定。没有关于不同类的先验知识，S就无法计算。因此，在实际聚类分析中，马氏距离不是理想的距离。名义尺度变量的一种距离定义例6.2.1某高校举办一个培训班，从学员的资料中得到这样六个变量：性别(x1)，取值为男和女；外语语种(x2)，取值为英、日和俄；专业(x3)，取值为统计、会计和金融；职业(x4)，取值为教师和非教师；居住处(x5)，取值为校内和校外；学历(x6)，取值为本科和本科以下。现有两名学员： x1=（男，英，统计，非教师，校外，本科）′x2=（女，英，金融，教师，校外，本科以下）′这两名学员的第二个变量都取值“英”，称为配合的，第一个变量一个取值为“男”，另一个取值为“女”，称为不配合的。一般地，若记配合的变量数为m1，不配合的变量数为m2，则它们之间的距离可定义为故按此定义本例中x1 与x2 之间的距离为2/3。二、相似系数聚类分析方法不仅用来对样品进行分类，而且可用来对变量进行分类，在对变量进行分类时，常常采用相似系数来度量变量之间的相似性。变量之间的这种相似性度量，在一些应用中要看相似系数的大小，而在另一些应用中要看相似系数绝对值的大小。相似系数（或其绝对值）越大，认为变量之间的相似性程度就越高；反之，则越低。聚类时，比较相似的变量倾向于归为一类，不太相似的变量归属不同的类。相似系数一般需满足的条件(1)cij=±1，当且仅当xi=axj+b，a(≠0) 和b是常数； (2)|cij|≤1，对一