第六章聚类分析ppt.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章聚类分析ppt

聚类分析又称群分析,它是对样品或指标进行分类的一种多 元统计方法.在实际问题中,经常遇到分类问题,例如对某城市按 大气污染的轻重分成几类;在经济学中根据人均国民收入、人均 工农业产值、人均消费水平等多种指标对地区性的经济发展状 况进行分类等. 分类只不过是将一个观测对象指定到某一类(组)中,分类的 问题可以分成两种:一种是对当前所研究的问题已知它的类别数 目,且知道各类的特征,我们的目的是要将另一些未知类别的个 体正确归属于其中某一类,这是判别分析所要解决的问题.另一种是事先不知道研究的问题应分为几类,更不知道观测到的个体的 具体分类情况. 在聚类分析中,基本的思想是认为我们所研究的样品或指标 (变量)之间存在着程度不同的相似性(亲疏关系).于是根据一批 样品的多个观测指标,具体找出一些能够度量样品或指标之间相 似程度的统计量,以这些统计量作为划分类型的依据,把一些相似 程度较大的样品或指标聚合为一类,把另外一些彼此之间相似程 度较大的样品或指标又聚合为另一类,关系密切的聚合到一个小 的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样 品或指标都聚合完毕,把不同的类型一一划分出来,形成一个由小 到大的分类系统. 设有n个样品,每个样品测得p项指标.系统聚类方法的基本思 想是:首先定义样品间的距离(或相似系数)以及类与类之间距离. 一开始将n个样品各自成一类,这时样品间的距离与类间的距离 是等价的;然后将距离最近的两类合并,并计算新类与其他类的 类间距离,再按最小距离准则并类.这样每次缩小一类,直到所有 的样品并为一类为止.这个并类过程可以用谱系聚类图表达出来. 由以上系统聚类法的基本思想,即可得出它的基本步骤如下: (1)计算n个样品两两间的距离,得样品间的距离矩阵D(0) (2)一开始(第一步:i=1)n个样品各自构成一类,类的个数k=n 此时的类为Gi={Xi} i=1,2, …n,类间的距离就是样品间的 距离(即D(1)=D(0))然后对步骤i=1,2, …n执行并类过程的步 骤(3)和(4). (3)每次合并类间距离最小的两类为一新类.此时类的总个数k 减少1类,即k=n-i-1 (4)计算新类与其他类的距离,得新的距离阵D(i),若合并后类的 总个数k 仍大于1.重复步骤(3)和(4);直到类的总个数时k=1 为止。 (5)画聚类谱系图;(6)决定分类的个数及各类的成员。 例子 设有5个产品,每个产品测得一项指标,其值如下: 1, 2 , 4.5 , 6 , 8试对这5个产品按质量指标进行分类。 解 样品间的距离取为欧氏距离(普通的距离),类间的距离取为类间的最短距离,依以上步骤计算如下: (1)计算5个样品x1,x2,x3, x4,x5两两间的距离,得初始 的类间距离阵D(1) (2)一开始5个样品各自构成一 类,得5个类 G(i)={X(i)} (i =1,2,3,4,5) 类的个数为k=5 (3)由D(1)可知,首先合并x1和x2为 一新类,记为CL4={x1,x2},此时类 的个数减少一类变为k=4,故把此步 得到的新类记为CL4. (4)按最短距离法计算新类与其他类间的距离,得新的距离矩阵 D(2)见右表二,因此时类的总个数k=4大于1类,重复并类 过程. (10)画聚类谱系图形. (11)确定类的个数及各类的成员. 若分为两类,则 若分为三类,则 若分为四类,则 若分为五类,则 data han1; input name $ x @@; cards; x1 1 x2 2 x3 4.5 x4 6 x5 8 ; proc cluster data=han1 method=single nonorm outtree=han2; var x; id name; proc tree data=han2 out=han3 ncl=2 horizontal graphics; id name; proc print data=han3; run; 说明:以上SAS程序中,引入一个字符变量name,目的是在输出中用x1至x5来识别5个产品CLUSTER过程是用于系统聚类的过程.选项method=single规定类距离使用最短距离法.选项nonorm表示类间的距离不进行规格化. 选项outtree=han2指定输出数据集的名字,该数据集包含用 于画谱系聚类图的并类过程.Var语句指出用于聚类分析的变量; id语句

文档评论(0)

叮当文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档