bigdata数据挖掘培训3.ppt

  1. 1、本文档共123页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
bigdata数据挖掘培训3

* 实际网络非常复杂,只能近似计算 * * * * * * * * CURE 不能处理不同密度的簇 Original Points CURE CHAMELEON基于图的 CHAMELEON:采用动态模型的算法,by G. Karypis, E.H. Han and V. Kumar’99 通过动态模型衡量相似性 如果两个簇集的互联性和相似度与簇内部对象间的互联性和相似度高度相关,则合并这两个簇。 算法分作两步 1. 通过一个图划分算法将数据对象聚类成大量相对较小的子聚类 2.然后用一个凝聚的层次凝聚算法通过反复地合并子类来找到真正的结果簇 CHAMELEON算法的大致框架 构造稀疏图 划分图 合并划分 最终的簇集 Data Set Experimental Results: CHAMELEON Experimental Results: CHAMELEON Experimental Results: CURE (10 clusters) Experimental Results: CURE (15 clusters) Experimental Results: CHAMELEON Experimental Results: CURE (9 clusters) Experimental Results: CURE (15 clusters) 小结 层次聚类 凝聚的和分裂的 簇间距离:最小、最大、均值、中心点 最近邻与单连接 最远邻与全连接 CURE, CHAMELEON 4.2 聚类分析 什么是聚类分析? 聚类分析中的数据类型 主要的聚类方法分类 划分方法 层次方法 基于密度的方法 基于密度的簇集方法 主要特征: 发现任意形状的簇集 处理噪声 单次扫描 需要密度参数作为中止条件 若干相关研究: DBSCAN: Ester, et al. (KDD’96) OPTICS: Ankerst, et al (SIGMOD’99). DENCLUE: Hinneburg D. Keim (KDD’98) CLIQUE: Agrawal, et al. (SIGMOD’98) 基于密度的聚集:背景知识 两个参数: Eps: 邻域半径 MinPts: 对象领域中至少包含的最小对象数目 NEps(p): {q 属于 D | dist(p,q) = Eps} 直接可达:在下面条件满足情况下,我们称点 p侍从对象 q 关于. Eps, MinPts 直接可达的 1) p 属于 NEps(q) 2) 核心对象条件: |NEps (q)| = MinPts p q MinPts = 5 Eps = 1 cm 基于密度的聚集:背景知识(II) 密度可达: 当存在一个对象链 p1, …, pn, p1 = q, pn = p ,其中 pi+1 是pi直接密度可达的情况下,点 p从点q关于 Eps, MinPts 密度相关 点 p 和点q 是关于. Eps, MinPts对象相关的,当存在一个点 o, 使得p 和q 都是从o 关于. Eps和 MinPts密度可达的. p q p1 p q o DBSCAN: 基于高密度连接区域的密度聚类方法 基于密度的簇集: 簇被定义为密度相连点的最大集合 可以在带有噪声的空间数据库中发现任意形状的聚类。 Core Border Outlier Eps = 1cm MinPts = 5 DBSCAN: 算法 随机的选择点 p 寻找所有从点 p 关于 Eps and MinPts.密度可达的点 如果 p 是核心点,那么一个簇集已经生成了 如果 p只是边缘点,从点p 没有哪一个点是密度可达的,DBSCAN 访问数据库中下一个点. 重复上述过程知道中止条件满足 DBSCAN: Core, Border, and Noise Points DBSCAN: Sensitive to Parameters DBSCAN: Core, Border and Noise Points Original Points Point types: core, border and noise Eps = 10, MinPts = 4 When DBSCAN Works Well Original Points Clusters Resistant to Noise Can handle clusters of different shapes and sizes When DBSCAN Does NOT Work Well Original Points (MinPts=4, Eps=9.75). (MinPts=4, Eps=9.92) Varying densities High-

文档评论(0)

karin + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档