何晓群-多元统计分析第三章.pptxVIP

下载本文档

5
0
约3.4千字
约 24页
2023-03-17 发布于浙江
举报
版权申诉

何晓群-多元统计分析第三章.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多元统计分析中国人民大学：何晓群苏州大学：马学俊——基于R语言聚类分析学习目标：1.了解适合用聚类分析解决的问题;2.理解对象之间的相似性是如何测量的;3.区别不同的距离;4.区分不同的聚类方法及其相应的应用;5.理解如何选择类的个数;6.简述聚类分析的局限。03 3.1 聚类分析的基本思想3.1.1 目的聚类分析不仅可以用来对样品进行分类,而且可以用来对变量进行分类。对样品的分类常称为??型聚类分析,对变量的分类常称为??型聚类分析。与多元分析的其他方法相比,聚类分析的方法还是比较粗糙的,理论上也不算完善,但由于它能解决许多实际问题,所以很受实际研究者重视,同回归分析、判别分析一起称为多元分析的三大方法。目的在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,如前所述,聚类分析的目的就是把相似的研究对象归成类。 3.1 聚类分析的基本思想3.1.2 聚类的分类方法分类方法系统聚类法：首先,将n个样品看成n类,然后将性质最接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并,变成n-2类,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类。模糊聚类法：将模糊数学的思想观点用到聚类分析中产生的方法。 K-均值法：把样品聚集成k个类的集合，类的个数k可以预先给定或者在聚类过程中确定。该方法可应用于比系统聚类法适用的大得多的数据组。有序样品的聚类：n个样品按某种原因(时间、地层深度等)排成次序，必须是次序相邻的样品才能聚成一类。分解法：首先所有的样品均在一类,然后用某种最优准则将它分为两类,再试图用同种准则将这两类各自分裂为两类,从中选一个使目标函数较好者,这样由两类变成三类,如此下去,一直分裂到每类只有一个样品为止(或采用其他停止规则),将上述分裂过程画成图,由图便可求得各个类。加入法：将样品依次加入,每次加入后将它放到当前聚类图的应在位置上,全部加入后,即可得到聚类图。 3.2 相似性度量?距离定义? 3.2 相似性度量?间隔尺度定义? 3.3 类和类的特征3.3.1 类的定义用??表示类,设??中有??个元素,这些元素用??,??等表示。定义? 3.3 类和类的特征3.3.2 类的特征?特征? 3.3 类和类的特征3.3.3 类的距离定义?定义? 3.4 系统聚类法系统聚类法是聚类分析诸方法中使用最多的。它包含下列步骤: 3.4 系统聚类法3.4.1 最短距离法和最长距离法? 3.4 系统聚类法3.4.2 重心法和类平均法? 3.4 系统聚类法3.4.3 离差平方和法? 3.4 系统聚类法3.4.4 分类数的确定聚类分析的目的是要对研究对象进行分类,因此,如何选择分类数成为各种聚类方法中的主要问题之一。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。德穆曼(Demirmen)曾提出根据树状结构图来分类的准则。准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。准则2:各类所包含的元素都不应过多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。分类准则 3.5 均值聚类和有序样品的聚类3.5.1 均值法(快速聚类法)K-均值法主要思想：把每个样品聚集到其最近形心(均值)类中步骤：(1)把样品粗略分成K个初始类。(2)进行修改,逐个分派样品到其最近均值类中(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值)。(3)重复第2步,直到各类无元素进出。注意：样品的最终聚类在某种程度上依赖于最初的划分或种子点的选择。为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如果最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法。 3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类? 3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类? 3.6 模糊聚类分析3.6.1 模糊聚类的几个基本概念? 3.6 模糊聚类分析3.6.2 FCM聚类方法? 3.6 模糊聚类分析3.6.3 FCM聚类算法? 3.7 计算步骤与上机实现系统聚类,快速聚类,模糊聚类用R软件操作具体步骤如下:(1)分析需要研究的问题,确定聚类分析所需的多元变量;(2)选择对样品聚类还是对指标聚类;(3)选择合适的聚类方法;(4)选择所需的输出结果。 3.7 计算步骤与上机实现城镇居民消费水平通常用食品、衣着、居住、生活用品及服务、交通通信、文教娱乐、医疗保健和其他用品及服务支出这八项指标来描述,八项指标间可能存在一定的线性关系。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际