04聚类分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析专题 § 6.1 引言 俗话说,“物以类聚,人以群分” ,在自然科学和社会科学等各领域中,存在着大量的 分类问题。 分类学是人类认识世界的基础科学, 在古老的分类学中, 人们主要靠经验和专业 知识进行定性的分类, 很少利用数学工具进行定量的分类。 随着人类科学技术的发展, 对分 类的要求越来越高, 以致有时仅凭经验和专业知识难以确切地进行分类, 于是人们逐渐地把 数学工具引用到了分类学中, 这便形成了数值分类学这一学科, 之后又将多元分析的技术引 入到数值分类学, 便又从数值分类学中分离出一个重要分支──聚类分析。 与多元分析的其 它分析方法相比,聚类分析方法较为粗糙,理论上还不够完善,正处于发展阶段。但是,由 于该方法应用方便, 分类效果较好, 因此越来越为人们所重视。 这些年来聚类分析的方法发 展较快,内容越来越丰富。 判别分析与聚类分析都是研究事物分类的基本方法,它们有着不同的分类目的,彼此 之间既有区别又有联系。 各种判别分析方法都要求对类有事先的了解, 通常是每一类都有一 个样本, 据此得出判别函数和规则, 进而可对其它新的样品属于哪一类作出判断。 对类的事 先了解和确定常常可以通过聚类分析得到。 聚类分析的目的是把分类对象按一定规则分成若 干类, 这些类不是事先给定的, 而是根据数据的特征确定的。 在同一类里的这些对象在某种 意义上倾向于彼此相似, 而在不同类里的对象倾向于不相似。 聚类分析能够用来概括数据而 不只是为了寻找“自然的”或“实在的”分类。例如,在选拔少年运动员时,对少年的身体 形态、 身体素质、生理功能的各种指标进行测试, 据此对少年进行分类,分在同一类里的少 年这些指标较为相近。 类确定好之后, 可以根据各类的样本数据得出选材的判别规则, 作为 选材的依据。又如,根据啤酒中含有的酒精成分、纳成分、所含的热量“卡路里”数值,可 以对啤酒进行分类。 聚类分析根据分类对象不同分为 Q 型聚类分析和 R 型聚类分析。 Q型聚类分析是指对 样品进行聚类, R 型聚类分析是指对变量进行聚类。本章我们主要讨论 Q 型聚类。 § 6.2 距离和相似系数 在对样品(或变量)进行分类时,样品(或变量)之间的相似性是如何度量的呢?这 一节中,我们介绍两个相似性度量──距离和相似系数, 前者常用来度量样品之间的相似性。 后者常用来度量变量之间的相似性。 样品之间的距离和相似系数有着各种不同的定义, 而这 些定义与变量的类型有着非常密切的关系。通常变量按测量尺度的不同可以分为以下三类: (1) 间 隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 (2) 有 序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品 分为一等品、二等品、三等品等有次序关系。 (3) 名 义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如 性别、职业、产品的型号等。 我们这里主要讨论具有间隔尺度变量的样品聚类分析方法。 1 一、距离 设 x 为第 i 个样品的第 j 个指标,数据矩阵列于表 6.1。每个样品有 p 个变量,故每个 ij 样品都可以看成是 p R 中的一个点, n个样品就是 p R 中的 n个点。在 p R 中需定义某种距离, 第i 个样品与第 j 个样品之间的距离记为 d ,在聚类过程中, 距离较近的点倾向于归为一类, ij 距离较远的点应归属不同的类。所定义的距离 d 一般应满足如下四个条件: ij (Ⅰ) dij 0,对一切 i , j ; (Ⅱ) d 0,当且仅当第 i 个样品与第 j 个样品的各变量值相同; ij (Ⅲ) dij d ,对一切 i, j ; ji (Ⅳ) dij d d ,对一切 i, j, k 。 ik kj 表 6.1 数据矩阵 变量 样品 x1 x , xp 2 1 x11 x12 , x1p 2 x21 x22 , x2 p n x xn2 , xnp n1 常用的距离有如下几种: 1.明考夫斯基 (Minkowski) 距离 第i 个样品与第 j 个样品间的明考夫斯基距离定义为 1 p q q dij (q) x x (6.2.1) ik jk k 1 这里 q 为某一自然数,这是一个最常用最直观的距离。 p 当 q 1时, dij (1) x x ,称为绝对值距离; ik jk k 1 当 q 2 时, 1 p p 2 2 2 dij (2) x x x x ,称为欧氏距离; ik jk ik jk k 1 k 1 当 q 时, dij ( ) max x x ,称为切比雪夫距离。 ik jk 1 k p 当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应直接采用明考 夫斯基距离, 而应先对各变量的数据作标准化处理, 然后用标

文档评论(0)

liuxiaoyu92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档