- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
补充:聚类分析与判别分析 以下的讲义是吴喜之教授有关聚类分析与判别分析的讲义,我觉得比书上讲得清楚。 先是聚类分析一章 再是判别分析一章 第十一章 聚类分析 ——定量分类技术 分类 俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。 聚类分析(cluster analysis) 聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。 聚类分析将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。其基本原则是依据相似性(如距离最短、相似最大等)对样品或变量进行分类。分类的结果是分在同一类中的对象有较强的同质性,彼此相近或相似;不同类中的对象呈现较强的异质性,彼此差异较大。 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。 聚类分析(cluster analysis) 根据分类对象的不同,聚类分析分为两大类: 样品聚类(Q型聚类):对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组) 变量聚类(R型聚类):主要目的是了解变量间及变量组合间的亲疏关系,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。 聚类分析的分类指标 由于聚类分析的基本原则是依据相似性对样品或变量进行分类,因此,要确定能够描述研究对象相似性的指标。在聚类分析中,对象相似性的指标大致有三类:距离指标、相似系数与关联指标。 相似性指标的类别与数据的量表水平有关,距离指标和相似系数适用于等距量表与比率量表的数据,而关联指标适用于称名量表和顺序量表的数据。 相似性指标的类别也与分类对象的性质有关,如距离指标是用于对样品进行分类,而相似系数则适用于对变量进行分类。 两个距离概念 按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。 点间距离有很多定义方式。最简单的是歐氏距离。 当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点相似度越大,就相当于距离越短。 由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离, 类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。 向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数: 欧氏距离: Euclidean 平方欧氏距离: Squared Euclidean 夹角余弦(相似系数1) : cosine Pearson correlation (相似系数2): Chebychev: Maxi|xi-yi| Block(绝对距离): Si|xi-yi| Minkowski: 当变量的测量值相差悬殊时,要先进行标准化. 如R为极差, s 为标准差, 则标准化的数据为每个观测值减去均值后再除以R或s. 当观测值大于0时, 有人采用Lance和Williams的距离 类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离) 最短距离法: 最长距离法: 重心法: 离差平方和: (Wald) 类平均法: (中间距离, 可变平均法,可变法等可参考各书). 有了上面的点间距离和类间距离的概念,就可以介绍聚类的方法了。这里仅介绍两种:分层聚类与快速聚类。 7.3 分层聚类(Hierarchical Cluster) 分层聚类方法: 分解法:先视为一大类,再分成几类 凝聚法:先视每个为一类,再合并为几大类 可用于观测量(样本)聚类(Q型)和变量聚类(R型) 一般分为两步(自动,可从Paste的语句知道,P359): Proximities:先对数据进行的预处理(标准化和计算距离等) Cluster:然后进行聚类分析 两种统计图:树形图(Dendrogram)和冰柱图(Icicle) 各类型数据的标准化、距离和相似性计算P348-354 定距变量、分类变量、二值变量 标准化方法p353:Z Scores、Range -1 to 1、 Range 0
文档评论(0)