网站大量收购闲置独家精品文档,联系QQ:2885784924

数学聚类分析05.pdf

数学聚类分析05.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 聚类分析 第一节 引言 第二节 相似性的量度 第三节 系统聚类分析法 第四节 K均值聚类分析 第五节 有序样品的聚类分析法 第一节 引言 n “物以类聚,人以群分”。对事物进行分类,是人们认识事物 的出发点,也是人们认识世界的一种重要方法。因此,分类 学已成为人们认识世界的一门基础科学。 n 在生物、经济、社会、人口等领域的研究中,存在着大量量 化分类研究。例如:在生物学中,为了研究生物的演变,生 物学家需要根据各种生物不同的特征对生物进行分类。在经 济研究中,为了研究不同地区城镇居民生活中的收入和消费 情况,往往需要划分不同的类型去研究。在地质学中,为了 研究矿物勘探,需要根据各种矿石的化学和物理性质和所含 化学成分把它们归于不同的矿石类。在人口学研究中,需要 构造人口生育分类模式、人口死亡分类状况,以此来研究人 口的生育和死亡规律。 n 但历史上这些分类方法多半是人们主要依靠经验作定性分类, 致使许多分类带有主观性和任意性,不能很好地揭示客观事 物内在的本质差别与联系;特别是对于多因素、多指标的分 类问题,定性分类的准确性不好把握。为了克服定性分类存 在的不足,人们把数学方法引入分类中,形成了数值分类学。 后来随着多元统计分析的发展,从数值分类学中逐渐分离出 了聚类分析方法。随着计算机技术的不断发展,利用数学方 法研究分类不仅非常必要而且完全可能,因此近年来,聚类 分析的理论和应用得到了迅速的发展。 n 聚类分析就是分析如何对样品(或变量)进行量化分类的问 题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样 品进行分类处理,R型聚类是对变量进行分类处理。 第二节 相似性的量度 一 样品相似性的度量 二 变量相似性的度量 一、样品相似性的度量 n 在聚类之前,要首先分析样品间的相似性。Q型聚类分析, 常用距离来测度样品之间的相似程度。每个样品有p个指标 (变量)从不同方面描述其性质,形成一个p维的向量。如 果把n个样品看成p维空间中的n个点,则两个样品间相似 度就可用p维空间中的两点距离公式来度量。两点距离公式 可以从不同角度进行定义,令d 表示样品X 与X 的距离,存 ij i j 在以下的距离公式: 1.明考夫斯基距离 (5.1) 明考夫斯基距离简称明氏距离,按的取值不同又可分成: n 欧氏距离是常用的距离,大家都比较熟悉,但是前面已经提 到,在解决多元数据的分析问题时,欧氏距离就显示出了它 的不足之处。一是它没有考虑到总体的变异对“距离”远近的 影响,显然一个变异程度大的总体可能与更多样品近些,既 使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量 纲影响,这对多元数据的处理是不利的。为了克服这方面的 不足,可用“马氏距离”的概念。 2 .马氏距离 设X 与X 是来自均值向量为 ,协方差为∑ = (>0 )的总体i j G中的p维样品,则两个样品间的马氏距离为 (5.5) 马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种 距离的主要不同就是它考虑了观测变量之间的相关性。如果 各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权 数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异 性,不再受各指标量纲的影响。将原始数据作线性变换后, 马氏距离不变。 3 .兰氏距离

文档评论(0)

teacher Wang + 关注
实名认证
内容提供者

资深国际数学辅导,ap ib amc alevel and so on

1亿VIP精品文档

相关文档