理论统计学课件-聚类分析.pptVIP

理论统计学课件-聚类分析.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
动态聚类分析主要计算步骤 1、首先将原始数据进行标准化处理。 2、选择预定数目的凝聚点进行初始分类。 3、计算每一类的重心,将重心作为凝聚点,然后计算每一个样品与重心凝聚点的距离,并将它归入与凝聚点距离最近的那一类别。每归入—个样品之后,重新计算该类的重心,并用新计算的重心替代原凝聚点。如果所有的新凝聚点与前一次的老凝聚点重合,则分类过程终止,否则重复上述步骤,直至分类过程终止。 步骤3的重复过程就是迭代过程,每一次迭代都是对应的分类函数缩小,当两次的重心完全相同时,计算过程收敛,此时分类函数也趋于定值。按批修改法的最终分类结果受到初始分类的影响,这是动态聚类法的一个缺点。 系统聚类分析的基本思想 和分析步骤 (一)基本思想 系统聚类分析(Hierachical C1uster Analysis)是在样品距离的基础上,定义类与类之间的距离,首先将个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止,并把这个过程做成一个聚类谱系图。这种方法即系统聚类分析。 系统聚类分析的基本思想是: 把n个样品看成p维(p个指标)空间的点,而把每个变量看成p维空间的坐标轴,根据空间上点与点的距离来进行分类。 系统聚类分析的具体方法是: 将n个样品自成一类,先计算 n(n-1)/2个相似性测度或距离,并且把具有最小测度的两个样品合并成两个元素的类,然后按照某种聚类方法计算这个类和其余(n-2)个样品之间的距离,这样一直持续下去,并类过程中,每一步所做的并类(样品与样品,样品与类、类与类)都要使测度在系统中保持最小,每次减少一类,直到所有样品都归为一类为止。 (二)系统聚类分析的一般步骤 1、对数据进行变换处理; 2、计算各样品之间的距离,并将距离最近的两个样品合并成一类; 3、选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于1,则继续并类,直至所有样品归为一类为止; 4、最后绘制系统聚类谱系图 ,按不同的分类标准或不同的分类原则,得出不同的分类结果; 常用系统聚类分析方法 进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有8种。即最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法等。尽管系统聚类分析方法很多,但每种方法的归类步骤基本是一样的,所不同的主要是对类与类之间的距离的定义不同。 用最短距离法的聚类主要步骤如下: (二)最长距离法 最长距离法与最短距离法在并类步骤上是完全一致的,而是在定义类与类之间的距离是相反的,类与类之间的距离定义为两类之间所有样品间距离最大者, (三)中间距离法(Gower,1966年) 该法是在定义类与类之间的距离时,既不采用两类样品之间的最近距离,也不采用两类样品之间最远距离,而是采用介于两者之间的中间距离, 具体分类过程与前面最短和最长距离分类方法步骤相同,只是在定义的距离为中间距离。 (四)重心法 以上三种方法在定义类与类之间距离时,没有考虑每一类所包含的样品数。因此,在定义类与类的距离时,把每一类中所包括的样品数目也考虑进去,把两个类重心之间的距离定义为类与类的距离,用这种距离分类的方法就称为重心法。 所谓每一类的重心就是该类样品的均值。其中单个样品的重心就是它本身,两个样品的类的重心就是两点连线的中点。 重心法的归类步骤与以上三种方法基本一样,所不同的是每合并一次类,就要重新计算一次新类的重心以及与与其他各类的距离。 (五)类平均法 该方法定义类与类的距离时,不仅把每一类中所包括的样品数目考虑进来,而且把各样品的信息都充分地考虑进来,而把两个类之间的距离平方定义为两类元素两两之间距离平方的平均。 (六)可变类平均法 (七)可变法 (八)离差平方和法(Ward法) 基本思想是,基于方差分析的思想,如果类分得合理,则同类样品之间离差平方和应当较小,类与类之间的离差平方和应当较大。 Ward方法的基本思想是将两类合并后所增加的离差平方和看成类之间的距离,先将n个样品各自成一类,然后每次缩小一类,每缩小一次离差平方和就会增加,选择使S增加最小的两类合并,直到所有的样品归为一类为止。 实际应用中,离差平方和法应用比较广泛,分类效果比较好。离差平方和法要求样品之间的距离必须是欧氏距离。 系统聚类分析方法的统一公式 由于上述聚类方法的合并类原则和步骤是完全一样的,所不同的是类与类之间的距离公式有不同的定义,所以

文档评论(0)

子不语 + 关注
官方认证
服务提供商

平安喜乐网络服务,专业制作各类课件,总结,范文等文档,在能力范围内尽量做到有求必应,感谢

认证主体菏泽喜乐网络科技有限公司
IP属地未知
统一社会信用代码/组织机构代码
91371726MA7HJ4DL48

1亿VIP精品文档

相关文档