- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DATAMINING(CH3)
数据挖掘与知识发现(第2版) (49-*) BIRCH算法 CF树存储了层次聚类的聚类特征。它是一棵带有两个参数的高度平衡的树,这两个参数为分支因子B和阈值T。 非叶子节点至多有B个形如[CFi, childi ]的项(i=1, 2,…,B)。 “childi”是指向第i个孩子节点的指针, CFi是该孩子节点表示的子簇的聚类特征。 非叶子节点表示由所有孩子节点表示的子簇组合形成的簇。 叶子节点至多包含L个项,形如[CFi] (i=1, 2,…, L)。 有两个指针“prev”和“next”,用于把所有叶子连成链。 叶子节点表示由相应项描述的子簇形成的簇。 叶子节点的项满足阈值T,T表示叶子节点中子聚类的最大直径(或半径)。 数据挖掘与知识发现(第2版) (49-*) BIRCH算法 BIRCH算法: 采用多阶段聚类技术,对数据集合进行单遍扫描后生成初步簇,再经过一遍或多遍扫描改进聚类质量, CF树的重建类似于B+树构建中的节点插入和节点分裂 。 算法优点: 对大型数据库的高效性和可扩展性 支持增量聚类 复杂度为O (n) 算法缺点: CF树对节点中包含项的数目有限制,这可能导致节点并未对应实际数据集的一个自然簇。 不适合发现非球形的簇。 数据挖掘与知识发现(第2版) (49-*) CURE算法 CURE(利用代表点聚类,Clustering Using Representatives)算法是介于基于质心方法和基于代表对象点方法之间的策略。 CURE算法 不是利用质心或单个代表对象点来代表一个簇,而是首先在簇中选取固定数目的、离散分布的点,用这些点反映簇的形状和范围。然后把离散的点按收缩因子? 向簇的质心收缩。收缩后的离散点作为簇的代表点。两个簇的距离定义为代表点对(分别来自两个簇)距离的最小值,在CURE算法的每一步合并距离最近的两个簇。 调节收缩因子α,α?[0, 1],可以让CURE发现不同形式的簇。当α=1时,CURE还原为基于质心的方法。当α=0时,CURE还原为MST(最小生成树)方法。 CURE算法特点: 可以发现非球形及大小差异较大的簇。 对噪声不敏感。 数据挖掘与知识发现(第2版) (49-*) Chameleon算法 Chameleon算法是一种采用动态建模技术的层次聚类算法。 Chameleon算法分两个步骤: 第一步利用图划分算法将数据对象聚类为若干相对较小的子聚类; 另一步是采用凝聚的层次聚类算法合并子簇,从而发现真实的簇。 Chameleon中数据项的稀疏图表示采用k-最近邻图方法。 k-最近邻图中每个顶点表示一个数据对象。 如果对象u是对象ν的k-最近似点之一,或ν是u的k-最近似点之一,则在表示u和ν的顶点间存在一条边。 把对象所在区域的密度作为边的权重,权重可以反映数据空间的总体密度分布,应该对密集区域和稀疏区域的数据均匀建模。 由于Chameleon算法建立在稀疏图基础之上,所以每一个簇是数据集原始稀疏图的一个子图。 数据挖掘与知识发现(第2版) (49-*) Chameleon算法 Chameleon考查两个簇的相对互联度RI和相对接近度RC,利用动态建模框架来决定簇间的相似度。 簇Ci和Cj之间的相对互联度RI(Ci, Cj)定义为: 其中,EC(Ci, Cj)是把由Ci和Cj组成的簇分裂为Ci和Cj的边割集;EC(Ci)是将Ci对应的子图划分为大致相等的两部分需截断的边割集(最小截断等分线上的边)。 簇Ci和Cj之间的相对接近度RC(Ci, Cj)定义为: 其中, 是连接Ci和Cj顶点的边的平均权重; 是Ci在EC (Ci)中的边的平均权重;∣Ci∣表示Ci中数据点的个数。实际上,RC是相对于两个簇内部接近度对簇间绝对接近度的规范化。采用RC避免了将小而稀疏的簇合并到大而密集的簇。 数据挖掘与知识发现(第2版) (49-*) Chameleon算法 Chameleon选择RI和RC都高的簇进行合并,实质上是合并既有良好互联性又相互接近的两个簇。因此,可以定义一个由RI和RC组合而成的函数,选择使该函数取最大值的一对簇进行合并。例如,可以采用下述形式: RI (Ci, Cj) ? RC (Ci, Cj)? 其中,α是用户定义的参数。α1时,侧重于相对接近度;α1时,侧重于相对互联度。 数据挖掘与知识发现(第2版) (49-*) 基于密度的聚类方法 大型空间数据库中可能含有球形、线形、延展形等多种形状的簇,要求聚类算法应具有: 发现任意形状簇的能力。 在大型数据库上具有高效性。 基于密度
您可能关注的文档
最近下载
- 爱护我们的人民币.ppt VIP
- GJB9001C:2017质量保证大纲.doc VIP
- 可用性人因设计研究报告 .pdf VIP
- 设计概论讲课课件(第三版杨晓琪).pptx VIP
- 西师版六年级数学教案(上学期)全册教学案.pdf VIP
- 1.1+坚持改革开放(课件)-2025-2026学年九年级道德与法治上册(统编版).pptx VIP
- 2025-2026学年初中数学人教版2024八年级上册-人教版2024教学设计合集.docx
- 征信简版电子版PDF个人信用报告最新版2024年可编辑带水印模板.pdf VIP
- 创新创业基础(高职高专版)PPT教学完整课件.ppt
- 人教版小学六年级数学上册全册教案 -(最全).doc VIP
文档评论(0)