多元七章聚类分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第七章 聚类分析 目录 §7.1 引言 §7.2相似性度量 一、距离 1.明考斯基(Minkowski)距离 2.马氏距离 二、相似系数 §7.3系统聚类法 一、类、类的特征及类间距离 1.类、类的特征 2.类间距离 二、系统聚类法 1.系统聚类法的步骤 2.各种系统聚类法类间距离的地推公式与比较 三、系统聚类法的性质 (简介) 四、分类数的确定 1.给定阈值 2.统计量(略) §7.4动态聚类法(K-均值法) §7.5聚类分析的SPSS实现 第七章 聚类分析 §7.1 引言 对自然界的各种事物进行分类,这是人类认识世界和改造世界的前提。在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。 例如在经济研究中,为了研究不同地区城镇居民生活中的收入及消费状况,往往需要划分为不同的类型去研究; 在人口研究中,需要构造人口生育分类模式、人口死亡分类函数,以此来研究人口的生育和死亡规律。 最初人们是依靠经验、专业知识及事物的表象作定性分类处理,致使许多分类带有主观性和任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。 随着社会的前进、生产技术及科学研究的发展,人们对分类的要求越来越细,精度要求越来越高,原始的定性的分类远远不能满足实际的需要。因此,人们在进行分类时逐渐地应用了数学这个有用的工具,进而形成了数值分类学。后来随着多元统计分析的发展及在分类中的应用产生了聚类分析__ 数值分类学的一个分支,它主要是应用多元统计的理论来进行分类的一种方法。 聚类分析是发展较晚的一种多元统计方法,但由于它能解决许多实际问题,因而很受人们重视,发展很快,已广泛被应用到地质、电子工程、医学、生物学、考古学、模式识别、企事业管理等各个领域。也正是由于被分类对象的不同,及分类研究的目的不同而产生了不同的聚类方法,大致可归纳为: (1) 系统聚类法。首先,将个样品看成类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,我们得到类,再从中找出最接近的两类加以合并变成了类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有什么样品。 (2) 动态聚类法。开始将个样品粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。此法非常类似于计算方法的迭代法。 (3)模糊聚类法。将模糊数学用到聚类分析中产生的方法。 (4) 有序样品的聚类。个样品按某种原因(时间、地层深度等)排成次序,聚成的类必须是次序相邻的样品才能在一类。 (5) 分解法。它的程序正好和系统聚类相反,首先所有的样品均在一类,然后用某种最优准则将它分为两类。再用同样准则将这两类各自试图分裂为两类,从中选一个是目标函数较好者,这样由两类变成三类。如此下去,一直分裂到每类只有一个样品为止(或用其他停止规则),将上述分裂过程画成图,由图便可求得各个类。 本章将重点介绍(1)和(2), 聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。 聚类分析的目的:将分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不作任何假定,在同一类中的对象在某种意义上彼此相似,而在不同类里的对象不相似。 聚类分析根据分类对象可分为: Q型聚类分析:对样品进行分类; R型聚类分析:对变量进行分类。 §7.2相似性度量 首先要对被聚类的对象定义一种能反映它们之间相似或相异程度的量。一般对样品之间可以定义距离,变量之间定义相似系数来作为它们的相似(异)性度量,当然也可以反过来,这主要依赖于被分类的对象的性质的度量方式。下面先给出一个简单的例子。 例7.2.1 若我们需要将下列8户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表7.2.1。在表中,“标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数” 、“政治面貌” 等,指标如何选择取决于聚类的目的。 表7.2.1 某市2001年城镇居民户主个人收入数据 X1 标准工资收入 X5 单位得到的其他收入 X2 奖金收入 X6 其他收入 X3 津贴收入 X7 性别 X4 其他工资性收入 X8

文档评论(0)

ww88866 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档