聚类分析 动态聚类讲解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
31 (3) 适当地考虑计算工作量的大小。如对大样本的 聚类问题,不适宜选择斜交空间距离,因采用该距离处 理时,计算工作量太大。样品间或变量间亲疏测度指标 的选择是一个比较复杂且带主规性的问题,我们应根据 研究对象的特点作具体分折,以选择出合适的亲疏测度 指标。实践中,在开始进行聚类分析时,不妨试探性地 多选择几个亲疏测度指标,分别进行聚类,然后对聚类 分析的结果进行对比分析,以确定出合适的亲疏测度指 标。 32 … 0 … 0 ┇ ┇ ┇ ┇ … 0 p G q G 1 G 2 G n G 1 G 2 G n G 12 d n d 1 21 d 1 n d 2 n d n d 2 至此,我们已经可以根据所选择的距离构成 样本点间的距离表 , 样本点之间被连接起来。 33 四、样本数据与小类、小类与小类之间的度量 1 、最短距离( Nearest Neighbor) x 21 ? x 12 ? x 22 ? x 11 ? 13 d 34 最长距离( Furthest Neighbor ) ? ? ? x 11 ? x 21 ? ? ? ? 12 d 35 ? ? ? ? ? ? 9 9 1 d d ? ? ? 组间平均连接( Between-group Linkage) 36 1 、组内平均连接法( Within-group Linkage) 1 2 3 4 5 6 6 d d d d d d ? ? ? ? ? x 21 ? x 12 ? x 22 ? x 11 ? 37 重心法( Centroid clustering): 均值点的距离 ? ? ? ? 1 1 , x y ? ? 2 2 , x y 38 离差平方和法连接 2 , 4 1 , 5 6 , 5 2 2 (2 3) (4 3) 2 ? ? ? ? 2 2 (6 5.5) (5 5.5) 0.5 ? ? ? ? 2 2 (1 3) (5 3) 8 ? ? ? ? 39 红绿( 2 , 4 , 6 , 5 ) 8.75 离差平方和增加 8.75 - 2.5 = 6.25 黄绿( 6 , 5 , 1 , 5 ) 14.75 离差平方和增加 14.75 - 8.5 = 6.25 黄红( 2 , 4 , 1 , 5 ) 10 - 10 = 0 故按该方法的连接和黄红首先连接。 40 § 3 系统聚类方法 1 、计算 n 个样品两两间的距离 ,有 个。将 所有列表,记为 D (0) 表,该表是一张对称表。所 有的样本点各自为一类。 2 、选择 D (0) 表中最小的非零数,不妨假设 , 于是将 和 合并为一类,记为 。 pq d p G q G ? ? q p r G G G , ? 2 n C ij d (一)方法 开始各样本自成一类。 41 3 、利用递推公式计算新类与其它类之间的距离。 分别删除 D (0) 表的第 p , q 行和第 p , q 列,并新增 一行和一列添上的结果,产生 D (1) 表。 42 4 、在 D (1) 表再选择最小的非零数,其对应的两类 有构成新类,再利用递推公式计算新类与其它类 之间的距离。分别删除 D (1) 表的相应的行和列, 并新增一行和一列添上的新类和旧类之间的距离。 结果,产生 D (2) 表。类推直至所有的样本点归为 一类为止。 43 § 2 动态聚类 一、思想 系统聚类法是一种比较成功的聚类方法。然而当 样本点数量十分庞大时,则是一件非常繁重的工作, 且聚类的计算速度也比较慢。比如在市场抽样调查 中,有 4 万人就其对衣着的偏好作了回答,希望能迅 速将他们分为几类。这时,采用系统聚类法就很困 难,而动态聚类法就会显得方便,适用。 动态聚类解决的问题是:假如有个样本点,要把 它们分为类,使得每一类内的元素都是聚合的,并 且类与类之间还能很好地区别开。动态聚类使用于 大型数据。 44 选 择 凝 聚 点 分 类 修 改 分 类 分 类 是 否 合 理 分 类 结 束 Yes No 45 用一个简单的例子来说明动态聚类法的工作过 程。例如我们要把

文档评论(0)

wangsux + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档