- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 聚类分析
第一节 引言
第二节 相似性的量度
第三节 系统聚类分析法
第四节 K均值聚类分析
第五节 有序样品的聚类分析法
第六节 实例分析与计算机实现
第一节 引言
“物以类聚,人以群分” 。对事物进行分类,是人们认识事物
的出发点,也是人们认识世界的一种重要方法。因此,分类
学已成为人们认识世界的一门基础科学。
在生物、经济、社会、人口等领域的研究中,存在着大量量
化分类研究。例如:在生物学中,为了研究生物的演变,生
物学家需要根据各种生物不同的特征对生物进行分类。在经
济研究中,为了研究不同地区城镇居民生活中的收入和消费
情况,往往需要划分不同的类型去研究。在地质学中,为了
研究矿物勘探,需要根据各种矿石的化学和物理性质和所含
化学成分把它们归于不同的矿石类。在人口学研究中,需要
构造人口生育分类模式、人口死亡分类状况,以此来研究人
口的生育和死亡规律。
但历史上这些分类方法多半是人们主要依靠经验作定性分
类,致使许多分类带有主观性和任意性,不能很好地揭示客
观事物内在的本质差别与联系;特别是对于多因素、多指标
的分类问题,定性分类的准确性不好把握。为了克服定性分
类存在的不足,人们把数学方法引入分类中,形成了数值分
类学。后来随着多元统计分析的发展,从数值分类学中逐渐
分离出了聚类分析方法。随着计算机技术的不断发展,利用
数学方法研究分类不仅非常必要而且完全可能,因此近年
来,聚类分析的理论和应用得到了迅速的发展。
聚类分析就是分析如何对样品(或变量)进行量化分类的问
题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样
品进行分类处理,R型聚类是对变量进行分类处理。
第二节 相似性的量度
一 样品相似性的度量
二 变量相似性的度量
一、样品相似性的度量
在聚类之前,要首先分析样品间的相似性。Q型聚类分析,
常用距离来测度样品之间的相似程度。每个样品有p 个指标
(变量)从不同方面描述其性质,形成一个p 维的向量。如
果把n个样品看成p 维空间中的n个点,则两个样品间相似程
度就可用p 维空间中的两点距离公式来度量。两点距离公式
可以从不同角度进行定义,令d 表示样品X 与X 的距离,存
ij i j
在以下的距离公式:
1.明考夫斯基距离
p
dij (q) (X ik X jk q )1/q (5.1)
k 1
明考夫斯基距离简称明氏距离,按的取值不同又可分成:
(1)绝对距离(q 1 )
p
d ij (1) X ik X jk (5.2)
k 1
(2)欧氏距离(q 2 )
p
2
d (2) (X X )1/ 2 (5.3)
ij ik jk
k 1
(3)切比雪夫距离(q )
dij () max X ik
文档评论(0)