数据挖掘Chapter9.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘Chapter9

数据挖掘导论 数据挖掘:概念与技术 9.5 可伸缩的聚类算法 BIRCH BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies): 利用层次方法的平衡迭代归约和聚类 由Zhang, Ramakrishnan和Livny 提出(SIGMOD’96) 两个重要概念 聚类特征(Clustering Feature, CF) 聚类特征树(Clustering Feature Tree, CF树) 聚类特征 聚类特征(CF)是一个三元组,给出对象子类的信息的汇总描述 设某个子类中有N个d维的点或对象{oi},则该子类的CF定义如下 CF=N,LS,SS 其中, N是子类中的点数(0阶矩); 是N个数据点的线性和(1阶矩); 是N个数据点的平方和(2阶矩) * 数据挖掘导论 * 聚类特征 Clustering Feature: CF = N, LS, SS N: 数据点数目 LS: ?Ni=1Xi SS: ?Ni=1Xi2 CF = 5, (16,30),(54,190) (3,4) (2,6) (4,5) (4,7) (3,8) * 数据挖掘导论 * BIRCH的CF树 聚类特征 从统计学的观点来看,聚类特征是对给定子类统计汇总: 子类的0阶、1阶和 2阶矩( moments ) 记录了计算聚类的关键度量, 并有效地利用了存储, 因为它汇总了关于子类的信息,而不是存储所有的对象 CF 树是高度平衡的树, 它存储了层次聚类的聚类特征 树中的非叶节点有后代或“孩子” 非叶节点存储了其孩子的CF的总和, 即汇总了关于其孩子的聚类信息 CF树有两个参数 ----影响CF树的大小 分支因子B: 定义非树叶节点的孩子的最大个数 阈值T: 给出了存储在树的叶子节点中的子类的最大直径 * 数据挖掘导论 * BIRCH (续) BIRCH增量地构造一棵 CF 树(Clustering Feature Tree) , CF树是一个层次数据结构, 用于多阶段聚类 阶段 1: 扫描 DB , 建立一棵初始的存放在内存的 CF树(数据的多层压缩, 试图保留数据内在的聚类结构 ) 阶段 2: 使用某种聚类算法对CF树的叶节点进行聚类. 在阶段一, 随着对象被插入, CF树被动态地构造. 一个对象被插入到最近的叶子条目(子聚类). 如果在插入后存储在叶子节点中的子类的直径大于阀值, 那么该叶子节点(可能还有其他节点)被分裂. 新对象插入后. 关于该对象的信息向着树根传递----类似于B+树构建中的插入和节点分裂 通过修改阀值, CF树的大小可以改变 * 数据挖掘导论 * BIRCH (续) 重建过程从旧树的叶子节点建造一个新树. 这样, 重建树的过程不需要重读所有的对象 ----建树只需读一次数据 在阶段二被采用任何聚类算法, 例如典型的划分方法 BIRCH的性能 支持增量聚类 线性可伸缩性: 计算复杂性O(n), 单遍扫描, 附加的扫描可以改善聚类质量 较好的聚类质量 缺点 只能处理数值数据 CF树节点不是用户所认为的自然簇, 当簇不是球形的时, BIRCH不能很好地聚类 对数据的输入次序敏感 * 数据挖掘导论 * CURE: 基本思想 CURE(Clustering Using REpresentative) 使用簇中的多个代表点来表示一个簇 这些点捕获了簇的几何形状 代表点相对分散: 第一个代表点选择离簇中心最远的点, 而其余的点选择离所有已经选取的点最远的点 代表点的个数是一个参数, 业已发现10或更大的值效果很好 一旦选定代表点,它们就以因子?向簇中心收缩 例如, 对于? = 0.7, 一个到中心的距离为10个单位的代表点将移动3个单位 使用一种凝聚层次聚类方案进行实际的聚类 两个簇之间的距离是任意两个代表点(在它们向它们代表的中心收缩之后)之间的最短距离 ? = 0, 等价于基于质心的层次聚类 ? = 1, 与单链层次聚类大致相同 * 数据挖掘导论 * CURE: 基本思想 在聚类过程的两个不同阶段删除离群点 第一个阶段一般出现在簇的个数是原来点数的1/3时删除增长缓慢的簇 如果一个簇增长缓慢, 则意味它主要由离群点组成 第二个离群点删除阶段出现在簇的个数达到K(期望的簇个数)的量级时. 此时, 小簇又被删除 CURE使用了两种技术来加快聚类过程 第一种技术: 取随机样本, 并在抽样的数据点上进行层次聚类, 随后是最终扫描, 将数据集中剩余的点指派到簇中 第二种技术: 划分样本数据

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档