04聚类分析.docVIP

下载本文档

0
0
约1.26万字
约 28页
2019-09-30 发布于湖北
举报
版权申诉

04聚类分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析专题 § 6.1 引言俗话说，“物以类聚，人以群分” ，在自然科学和社会科学等各领域中，存在着大量的分类问题。分类学是人类认识世界的基础科学，在古老的分类学中，人们主要靠经验和专业知识进行定性的分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，这便形成了数值分类学这一学科，之后又将多元分析的技术引入到数值分类学，便又从数值分类学中分离出一个重要分支──聚类分析。与多元分析的其它分析方法相比，聚类分析方法较为粗糙，理论上还不够完善，正处于发展阶段。但是，由于该方法应用方便，分类效果较好，因此越来越为人们所重视。这些年来聚类分析的方法发展较快，内容越来越丰富。判别分析与聚类分析都是研究事物分类的基本方法，它们有着不同的分类目的，彼此之间既有区别又有联系。各种判别分析方法都要求对类有事先的了解，通常是每一类都有一个样本，据此得出判别函数和规则，进而可对其它新的样品属于哪一类作出判断。对类的事先了解和确定常常可以通过聚类分析得到。聚类分析的目的是把分类对象按一定规则分成若干类，这些类不是事先给定的，而是根据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相似，而在不同类里的对象倾向于不相似。聚类分析能够用来概括数据而不只是为了寻找“自然的”或“实在的”分类。例如，在选拔少年运动员时，对少年的身体形态、身体素质、生理功能的各种指标进行测试，据此对少年进行分类，分在同一类里的少年这些指标较为相近。类确定好之后，可以根据各类的样本数据得出选材的判别规则，作为选材的依据。又如，根据啤酒中含有的酒精成分、纳成分、所含的热量“卡路里”数值，可以对啤酒进行分类。聚类分析根据分类对象不同分为 Q 型聚类分析和 R 型聚类分析。 Q型聚类分析是指对样品进行聚类， R 型聚类分析是指对变量进行聚类。本章我们主要讨论 Q 型聚类。 § 6.2 距离和相似系数在对样品（或变量）进行分类时，样品（或变量）之间的相似性是如何度量的呢？这一节中，我们介绍两个相似性度量──距离和相似系数，前者常用来度量样品之间的相似性。后者常用来度量变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义，而这些定义与变量的类型有着非常密切的关系。通常变量按测量尺度的不同可以分为以下三类：（1）间隔尺度变量：变量用连续的量来表示，如长度、重量、速度、温度等。（2）有序尺度变量：变量度量时不用明确的数量表示，而是用等级来表示，如某产品分为一等品、二等品、三等品等有次序关系。（3）名义尺度变量：变量用一些类表示，这些类之间既无等级关系也无数量关系，如性别、职业、产品的型号等。我们这里主要讨论具有间隔尺度变量的样品聚类分析方法。 1 一、距离设 x 为第 i 个样品的第 j 个指标，数据矩阵列于表 6.1。每个样品有 p 个变量，故每个 ij 样品都可以看成是 p R 中的一个点， n个样品就是 p R 中的 n个点。在 p R 中需定义某种距离，第i 个样品与第 j 个样品之间的距离记为 d ，在聚类过程中，距离较近的点倾向于归为一类， ij 距离较远的点应归属不同的类。所定义的距离 d 一般应满足如下四个条件： ij （Ⅰ） dij 0，对一切 i , j ；（Ⅱ） d 0，当且仅当第 i 个样品与第 j 个样品的各变量值相同； ij （Ⅲ） dij d ，对一切 i, j ； ji （Ⅳ） dij d d ，对一切 i, j, k 。 ik kj 表 6.1 数据矩阵变量样品 x1 x , xp 2 1 x11 x12 , x1p 2 x21 x22 , x2 p n x xn2 , xnp n1 常用的距离有如下几种： 1．明考夫斯基 (Minkowski) 距离第i 个样品与第 j 个样品间的明考夫斯基距离定义为 1 p q q dij (q) x x （6.2.1） ik jk k 1 这里 q 为某一自然数，这是一个最常用最直观的距离。 p 当 q 1时， dij (1) x x ，称为绝对值距离； ik jk k 1 当 q 2 时， 1 p p 2 2 2 dij (2) x x x x ，称为欧氏距离； ik jk ik jk k 1 k 1 当 q 时， dij ( ) max x x ，称为切比雪夫距离。 ik jk 1 k p 当各变量的单位不同或虽单位相同但各变量的测量值相差很大时，不应直接采用明考夫斯基距离，而应先对各变量的数据作标准化处理，然后用标