第四章聚类技术分析.ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * EM算法(续) 可以把观察到的数据的对数似然写为: 其中右侧的求和项表明,观察到的似然可以表示为观察到的数据和隐藏数据的似然对隐藏值的求和。上式中假定了一个以未知参数θ为参量的概率模型p(D, H|θ)。 * * EM算法(续) 设Q (H)为残缺数据H的任意概率分布。可以用以下方式表示似然,其中的不等式是根据对数函数的凹陷性(Jensen不等式)得出的。 * * EM算法(续) 函数F(Q, θ)是要最大化的似然函数l(θ)的下限。EM算法重复以下两个步骤直至收敛: (1) E步骤:固定参数θ,使F相对于分布Q最大化: (2) M步骤:固定分布Q(H),使F相对于参数θ最大化: * * EM算法(续) 容易证明,在E步骤中当Qk+1=p(H|D, θk) 时似然达到最大值。对于这个Q值,不等式变成了等式l(θk )=F(Q, θk )。 在M步骤中,因为F中的第二项不依赖于θ,最大化问题就简化为最大化F中的第一项,从而得到: * * EM算法(续) 在E步骤中,以参数向量θk的特定设置为条件,估计隐藏变量的分布。在M步骤中,保持Q不变,选取新的参数θk+1,使观察到的数据的期望对数似然最大化。通过E步骤和M步骤的迭代,求出收敛的参数解。 * * 层次聚类 层次聚类按数据分层建立簇,形成一棵以簇为节点的树,称为聚类图。 按自底向上层次分解,则称为凝聚的层次聚类。 按自顶向下层次分解,就称为分裂的层次聚类。 * * 凝聚的和分裂的层次聚类 凝聚的层次聚类采用自底向上的策略,开始时把每个对象作为一个单独的簇,然后逐次对各个簇进行适当合并,直到满足某个终止条件。 分裂的层次聚类采用自顶向下的策略,与凝聚的层次聚类相反,开始时将所有对象置于同一个簇中,然后逐次将簇分裂为更小的簇,直到满足某个终止条件。 * * 合并聚类过程 给定N个对象的数据集合D,合并聚类层次为Pn,…,P2,P1,其中Pi具有i个对象。 (1)计算N个对象两两之间的距离 (2)构造n个单成员的聚类Ci,高度为0 (3)找到两个最近的类Ci,Cj,合并之并减少一个聚类,被合并的两个聚类的间距作为上层类的高度 (4)计算新生成的聚类与本层中其他聚类的间距,如果满足终止条件,算法结束,否则算法转到3。 * * 距离度量 簇的凝聚或分裂要遵循一定的距离(或相似度)准则。常见的簇间距离度量方法如下: 最小距离(单链接方法) 最大距离(完全链接方法) 平均距离(平均链接方法) 均值的距离(质心方法) 对象间距离函数有欧氏距离、曼哈坦距离、闵可夫斯基距离、马氏距离等。 * * 凝聚的和分裂的层次聚类 * * 层次聚类方法的优缺点 层次聚类方法的优点在于可以在不同粒度水平上对数据进行探测,而且容易实现相似度量或距离度量。 单纯的层次聚类算法终止条件含糊,而且执行合并或分裂簇的操作后不可修正,这很可能导致聚类结果质量很低。由于需要检查和估算大量的对象或簇才能决定簇的合并或分裂,所以这种方法的可扩展性较差。通常考虑把层次聚类方法与其他方法(如迭代重定位方法)相结合来解决实际聚类问题。 层次聚类和其他聚类方法的有效集成可以形成多阶段聚类,能够改善聚类质量。这类方法包括BIRCH、CURE、ROCK、Chameleon等。 * * BIRCH算法 BIRCH算法利用层次方法进行平衡迭代归约和聚类。 首先将对象划分成树形结构,然后采用其他聚类算法对聚类结果求精。 BIRCH的核心概念是聚类特征和聚类特征树(CF树),并用于概括聚类描述。采用这种结构可以提高聚类算法对大型数据库的高效性和可扩展性。 主要思想 通过扫描数据库,建立一个初始存放于内存中的聚类特征树, 然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree) CF 是指三元组CF=(N,LS,SS),用来概括子簇信息,而不是存储所有的数据点。 其中:N:簇中d 维点的数目; LS:N 个点的线性和;SS:N 个点的平方和。 CF 结构概括了簇的基本信息,并且是高度压缩的,它存储了小于实际数据点的聚类信 息。同时CF 的三元结构设置使得计算簇的半径、簇的直径、簇与簇之间的距离等非常容易 * * CF树特征 CF 树是一棵具有两个参数的高度平衡树,用来存储层次聚类 的聚类特征。它涉及到两 个参数分支因子和阈值。 分支因子B 指定子节点的最大数目,即每个非叶节点可以 拥有的孩子的最大数目。 阈值T 指定存储在叶节点的子簇的最大直径,它影响着CF 树的大小。改变阈值可以改变树的大小。 CF 树是随着数据点的插入而动态创建的,因此该方法是增量算法。 * * 2003-5-19 簇的度量特征(1) 簇内:tightness X0:中心点 R:点

文档评论(0)

过各自的生活 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档