- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
层次聚类方法
戴 奇
主要内容
凝聚和分裂层次聚类
BIRCH:利用层次方法的平衡迭代归约和聚类
Chameleon:利用动态建模的层次聚类算法
ROCK:分类属性的层次聚类算法
CURE:基于质心和基于代表对象方法之间的中间策略
概要
层次聚类方法将数据对象组成一棵聚类树。
根据层次分解是以自底向上(合并)还是自顶向下(分裂)方式,层次聚类方法可以进一步分为凝聚的和分裂的。
一种纯粹的层次聚类方法的质量受限于:一旦合并或分裂执行,就不能修正。也就是说,如果某个合并或分裂决策在后来证明是不好的选择,该方法无法退回并更正。
主要内容
凝聚和分裂层次聚类
BIRCH:利用层次方法的平衡迭代归约和聚类
Chameleon:利用动态建模的层次聚类算法
ROCK:分类属性的层次聚类算法
CURE:基于质心和基于代表对象方法之间的中间策略
层次聚类方法
一般来说,有两种类型的层次聚类方法:
凝聚层次聚类:采用自底向上策略,首先将每个对象作为单独的一个原子簇,然后合并这些原子簇形成越来越大的簇,直到所有的对象都在一个簇中(层次的最上层),或者达到一个终止条件。绝大多数层次聚类方法属于这一类。
分裂层次聚类:采用自顶向下策略,首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一个簇,或者达到某个终止条件,例如达到了某个希望的簇的数目,或者两个最近的簇之间的距离超过了某个阈值。
例子
下图描述了一种凝聚层次聚类算法AGNES和一种分裂层次聚类算法DIANA对一个包含五个对象的数据集合{a,b,c,d,e}的处理过程。
图1 对数据对象{a,b,c,d,e}的凝聚和分裂层次聚类
初始,AGNES将每个对象自为一簇,然后这些簇根据某种准则逐步合并,直到所有的对象最终合并形成一个簇。
例如,如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所有属于不同簇的对象间欧氏距离中最小的,则C1和C2合并。
在DIANA中,所有的对象用于形成一个初始簇。根据某种原则(如,簇中最近的相邻对象的最大欧氏距离),将该簇分裂。簇的分裂过程反复进行,直到最终每个新簇只包含一个对象。
在凝聚或者分裂层次聚类方法中,用户可以定义希望得到的簇数目作为一个终止条件。
树状图
通常,使用一种称作树状图的树形结构表示层次聚类的过程。它展示出对象是如何一步步分组的。图2显示图1的五个对象的树状图。
图2 数据对象{a,b,c,d,e}层次聚类的树状图表示
簇间距离
四个广泛采用的簇间距离度量方法如下,其中|p-p|是两个对象或点p和p之间的距离,mi是簇Ci的均值,而ni是簇Ci中对象的数目。
最小距离:
最大距离:
均值距离:
平均距离:
最小距离
最大距离
均值距离
平均距离
当算法使用最小距离 衡量簇间距离时,有时称它为最近邻聚类算法。此外,如果当最近的簇之间的距离超过某个任意的阈值时聚类过程就会终止,则称其为单连接算法。
当一个算法使用最大距离 度量簇间距离时,有时称为最远邻聚类算法。如果当最近簇之间的最大距离超过某个任意阈值时聚类过程便终止,则称其为全连接算法。
单连接算法例子
先将五个样本都分别看成是一个簇,最靠近的两个簇是3和4,因为他们具有最小的簇间距离D(3,4)=5.0。
第一步:合并簇3和4,得到新簇集合1,2,(34),5
更新距离矩阵:
D(1,(34))=min(D(1,3),D(1,4))=min(20.6,22.4)=20.6
D(2,(34))=min(D(2,3),D(2,4))=min(14.1,11.2)=11.2
D(5,(34))=min(D(3,5),D(4,5))=min(25.0,25.5)=25.0
原有簇1,2,5间的距离不变,修改后的距离矩阵如图所示,在四个簇1,2,(34),5中,最靠近的两个簇是1和5,它们具有最小簇间距离D(1,5)=7.07。
最小和最大度量代表了簇间距离度量的两个极端。它们趋向对离群点或噪声数据过分敏感。
使用均值距离和平均距离是对最小和最大距离之间的一种折中方法,而且可以克服离群点敏感性问题。
尽管均值距离计算简单,但是平均距离也有它的优势,因为它既能处理数值数据又能处理分类数据。
层次聚类方法的困难之处
层次聚类方法尽管简单,但经常会遇到合并或分裂点选择的困难。这样的决定是非常关键的,因为一旦一组对象合并或者分裂,下一步的处理将对新生成的簇进行。
不具有很好的可伸缩性,因为合并或分裂的决定需要
您可能关注的文档
最近下载
- 地球科学概论 第10讲 _生物圈——[武汉大学 地球科学概论].pdf VIP
- 某公司年度经济活动分析报告.ppt VIP
- prosteel3d命令一览表.pdf VIP
- 2024秋《战场侦察监视技术与装备》答案.docx VIP
- 明清时期举人名录.pdf VIP
- 苏教版小学科学五年级下册教学设计教案.pdf VIP
- 土方开挖施工方案(筏板、独立基础、条形基础、桩间土).pdf VIP
- 人教版七年级上册英语第一次月考试题(含答案).docx VIP
- 梅赛德斯-奔驰-R级-产品使用说明书-R350 4MATIC-251165-Rclass.pdf VIP
- 《模拟电子技术基础》模电期末试题集及答案(8套).pdf VIP
文档评论(0)