聚类分析讲解.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析  §3.1聚类思想  §3.2相关度分析  §3.3聚类分析常用方法 §3.4聚类分析的步骤 §3.1聚类分析的思想  聚类分析是应用多元统计分析原理研究分类问题的一种统计方法,尽管它理论上还不是很完善,但发展很快,已广泛运用到作物品种分类,土壤分类,经济分析,地质勘测,天气预报等各个领域。  一、定义  聚类分析定义:又称群分析,是研究分类问题的一种方法。类指的是相似元素的集合。 2.起源  起源于分类学,考古分类学中,人们主要依靠专业知识和经验来实现分类,但随着科学的发展,分工的细化,人类认识的不断加深,就需要定性和定量分析结合,于是数学工具逐渐被引进到分类学当中,形成了数值分类学。再后来随着多元分析析的引进,聚类分析又逐渐从数值分析中分离出来从而形成一个相对独立的分支。 如:对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区分析,而是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税,资金利税率,产值利税率,百元销售收入实现利润,全员劳动生产率等等,根据这些指标对30个省市自治区技能型分类,然后根据分类结果对企业经济效益进行综合评价就易于得出科学的分析。诸如此类的例子很多,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越多的受到重视,在许多领域都得到了广泛的应用。 3.聚类分析的基本程序 1.根据样本的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量 2.利用统计量将样品或指标进行分类。 根据分类对象不同可分为样品聚类和变量聚类。 样品聚类在统计学中又称为Q型聚类,用SPSS的术语来说就是对事件或案例(CASE)进行聚类。是根据被观测的对象各种特征,即反映被观测对象特征的各变量值进行分类。 变量聚类在统计学中又称为R型聚类。反映事物特征的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究 4.聚类分析内容: 系统聚类法, 序样品聚类法, 动态聚类法, 模糊聚类法, 凸轮聚类法, 聚类预报法等。 本章主要介绍常用的系统聚类法 § 3.2相关度 一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性”度量。 目前研究样品之间这种关系的用得最多的方法主要有两种: 一种方法是定义空间距离。 一种方法是用相似系数; ⒈距离 每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。 用 表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件: 常见的距离有: block distance 绝对值距离: euclidean distance 欧式距离 squared euclidean distance 平方欧式距离 chebychev distance 切比雪夫距离 minkowski distance 明考斯基距离 (明氏距离) 当q=1,2时,为绝对值、欧式距离; 若趋近无穷时,则为切比雪夫距离 明氏距离在实际的运用很多,但有一些缺点。例如观测值的单位问题;指标间的相关问题,因此改进得到以下两种距离: Lanberra 兰氏距离 Mahalanobis 马氏距离 以上都是样本间距离的定义。 §3.3聚类分析常用方法 最短距离法的递推公式 各步聚类的结果: (1,2) (3) (4) (5) (1,2,3) (4) (5) (1,2,3) (4,5) (1,2,3,4,5) 最长距离法的递推公式 3、中间距离法 类平均法的递推公式 重心法 重心法的特点是定义两类之间的距离为两类重心之间的距离。何为类的重心?即该类样品的均值。计算两类样品重心的距离可以采用多种距离计算方法,如明氏距离、绝对距离、欧氏距离、马氏距离等。是将样品的所有指标值都纳入计算的方法。 其聚类方法与过程同最短距离法,合并类别均是按照距离矩阵中最小距离率先合并的原则,只是生成新类后计算新的距离矩阵需按重心距离进行计算。 离差平方和法 该方法的基本思想来自方差分析。即如果分类正确,则同类样品的离差平方和应当较小,而类间的离差平方和应当较大。具体做法是:先令每个样品各自成一类,然后每次缩小一

文档评论(0)

挑战不可能 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档