第四章聚类资料.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章聚类资料

第四章 聚类分析; 随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。只凭经验或专业知识对研究对象进行分类,往往很不够,有时不能进行确切的分类。于是数学被引进分类学中,形成了数值分类学。随着多元数据分析方法研究的深入,在数值分类学中形成了聚类分析这一分支。聚类分析是多元数据分析的重要组成部分。;表4.1 数据矩阵;; 每个样品可看成p维空间的一个点,n个样品组成p维空间的n个点。我们自然用各点之间的距离来衡量样品之间的相似程度(或靠近程度)。;定义4.1 设E是一个点的集合, d.,.是E到[0,∞]的函数,满足:;常用的距离是明考斯基(Minkowski)距离; 以上距离与各变量指标的量纲有关,为消除量纲的影响,有时应先对数据进行标准化,然后用标准化数据计算距离。标准化数据; ; 变量聚类通常称为R型聚类。有时变量之间也可以用距离来描述他们的接近程度。实际上距离和相似系数之间可以相互转化。若dij是一个距离,则;;二、类的特征;(3)G的直径;(1)最短距离法;(5)最小方差法(离差平方和法);四、类间距离的递推公式; ; ;§4.4 系统聚类法; 例4.1 为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费规律,需要利用调查资料对这5个省份分类。指标变量共8个,含义如下:;1991年5省城镇居民月均消费(单位:元/人)     ;将5个省各看成一类,即Gi={ i }, i=1,2,3,4,5。有Dij=dij;;;;G7= {3,4,5} {1,2}=G8;(1) G6={G3,G4 },距离=2.20;;系统聚类可用SAS过程cluster来实现。;过程步说明:;输出结果:;(2)聚类图(sin最短距离法);(2)聚类图(com最长距离法);(2)聚类图(ave类平均法);(2)聚类图(cen重心法);(2)聚类图(ward离差平方和法);二、系统聚类法的统计量;类内离差平方和为;则R2统计量为;设类Gp,Gq的离差平方和分别为;伪F统计量PSF是;例4.2 山东省2000年17地市农村居民和城镇居民消费水平如下表,试对17个地市进行分类。;data ex4_2; input group$ x1-x2; cards; 济南市 2298 8182 青岛市 2641 7983 ………………………… 菏泽市 1257 3310 ; proc cluster method=ave std rsq pseudo outtree=ex4_2t; var x1-x2; id group; run; proc tree data=ex4_2t horizontal; id group; run;;输出结果:;类平均法聚类图;;; 例4.3 从12个不同地区测得了某树种的平均发芽率x1与发芽势x2,数据见下表,距离采用欧氏距离,将12个地区用快速聚类法聚为2类。; 过程步说明:max=分类数;cluster=样品归类的变量名;out=分类结果输出文件名。;(2)简单统计量; 12个地区分为2类,第一类包含7个地区,离聚点的最大距离是0.1280;第二类包含5个地区,离聚点的最大距离是0.1114;两类间的距离是0.2923。;如果输出聚类样品的二维图,增加下列程序:;如果将样品的分类结果分别输出,增加下列程序:;

文档评论(0)

LOVE爱 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5341224344000002

1亿VIP精品文档

相关文档