- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 聚类分析
第一节 引言
第二节 相似性的量度
第三节 系统聚类分析法
第四节 K均值聚类分析
第五节 有序样品的聚类分析法
第一节 引言
n “物以类聚,人以群分”。对事物进行分类,是人们认识事物
的出发点,也是人们认识世界的一种重要方法。因此,分类
学已成为人们认识世界的一门基础科学。
n 在生物、经济、社会、人口等领域的研究中,存在着大量量
化分类研究。例如:在生物学中,为了研究生物的演变,生
物学家需要根据各种生物不同的特征对生物进行分类。在经
济研究中,为了研究不同地区城镇居民生活中的收入和消费
情况,往往需要划分不同的类型去研究。在地质学中,为了
研究矿物勘探,需要根据各种矿石的化学和物理性质和所含
化学成分把它们归于不同的矿石类。在人口学研究中,需要
构造人口生育分类模式、人口死亡分类状况,以此来研究人
口的生育和死亡规律。
n 但历史上这些分类方法多半是人们主要依靠经验作定性分类,
致使许多分类带有主观性和任意性,不能很好地揭示客观事
物内在的本质差别与联系;特别是对于多因素、多指标的分
类问题,定性分类的准确性不好把握。为了克服定性分类存
在的不足,人们把数学方法引入分类中,形成了数值分类学。
后来随着多元统计分析的发展,从数值分类学中逐渐分离出
了聚类分析方法。随着计算机技术的不断发展,利用数学方
法研究分类不仅非常必要而且完全可能,因此近年来,聚类
分析的理论和应用得到了迅速的发展。
n 聚类分析就是分析如何对样品(或变量)进行量化分类的问
题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样
品进行分类处理,R型聚类是对变量进行分类处理。
第二节 相似性的量度
一 样品相似性的度量
二 变量相似性的度量
一、样品相似性的度量
n 在聚类之前,要首先分析样品间的相似性。Q型聚类分析,
常用距离来测度样品之间的相似程度。每个样品有p个指标
(变量)从不同方面描述其性质,形成一个p维的向量。如
果把n个样品看成p维空间中的n个点,则两个样品间相似
度就可用p维空间中的两点距离公式来度量。两点距离公式
可以从不同角度进行定义,令d 表示样品X 与X 的距离,存
ij i j
在以下的距离公式:
1.明考夫斯基距离
(5.1)
明考夫斯基距离简称明氏距离,按的取值不同又可分成:
n 欧氏距离是常用的距离,大家都比较熟悉,但是前面已经提
到,在解决多元数据的分析问题时,欧氏距离就显示出了它
的不足之处。一是它没有考虑到总体的变异对“距离”远近的
影响,显然一个变异程度大的总体可能与更多样品近些,既
使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量
纲影响,这对多元数据的处理是不利的。为了克服这方面的
不足,可用“马氏距离”的概念。
2 .马氏距离
设X 与X 是来自均值向量为 ,协方差为∑ = (>0 )的总体i j
G中的p维样品,则两个样品间的马氏距离为
(5.5)
马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种
距离的主要不同就是它考虑了观测变量之间的相关性。如果
各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,
则马氏距离就退化为用各个观测指标的标准差的倒数作为权
数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异
性,不再受各指标量纲的影响。将原始数据作线性变换后,
马氏距离不变。
3 .兰氏距离
文档评论(0)