- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4 clustering -c 数据仓储与数据挖掘 教学课件
Data Mining: Concepts and Techniques 基于层次的聚类 主要思想: 把数据对象排列成一个聚类树,在需要的层次上对其进行切割,相关联 的部分构成一个cluster。基于层次的聚类方法有两种类型: (1)聚合层次聚类。最初每个对象是一个cluster,然后根据它们之间的相似性,对这些原子的cluster进行合并。大多数层次方法属于这一类,它们的主要区别是cluster之间的相似性的定义不同。 (2)划分层次聚类,它与上面的过程正好相反。 用户可以指定算法终止的条件,例如,聚类的个数或每个cluster的半径低于某个阀值。 弱点在于合并或分裂点的选取问题,因为一组对象一旦合并或分裂,就不能有undo的操作 时间复杂度为O(N2),对于处理大数据量有性能问题。 AGNES (Agglomerative Nesting) Introduced in Kaufmann and Rousseeuw (1990) Implemented in statistical analysis packages, e.g., Splus Use the Single-Link method and the dissimilarity matrix. Merge nodes that have the least dissimilarity Go on in a non-descending fashion Eventually all nodes belong to the same cluster DIANA (Divisive Analysis) Introduced in Kaufmann and Rousseeuw (1990) Implemented in statistical analysis packages, e.g., Splus Inverse order of AGNES Eventually each node forms a cluster on its own 基于层次的聚类-族间距离 聚合层次聚类和划分层次聚类都是通过计算族间的距离来进行族的合并或者划分的。 设d(p,q)为两个数据对象p和q之间的距离,mi和mj分别为族Ci和Cj的中心,ni和nj分别代表族Ci和Cj中数据对象的个数,则族Ci和Cj之间的距离定义如下: 最小距离: 最大距离: 基于层次的聚类-族间距离 中心点距离: 平均距离: 基于层次的聚类-步骤 以聚合层次聚类为例,根据族之间的距离对相似的族进行逐步合并的过程如下: [1] 每个数据对象自己构成一个原子族。 [2] 计算所有原子族之间的两两距离。 [3] 将距离最近的两个族进行合并,族的个数减1。 [4] 如果满足终止条件,则算法结束。否则计算新生成的族和其他族之间的距离并转步骤[3]。 基于层次的聚类-步骤 算法终止的条件可以由用户指定。例如,可以指定当族的个数达到某个阈值或者每个族的半径低于某个阀值时算法停止。族的半径通常定义为: 其中,pi为族中的每一个数据对象,m代表族的中心,n代表族中的数据对象个数。 基于层次的聚类 可以看出,聚合层次算法的核心是计算两个族之间的距离并将距离最近的两个族进行合并。 如果每一个族的内部都比较紧凑而且族和族之间分离地很好时,采用不同的距离定义所产生的聚类结果差别不大。 但是,如果族和族之间分离得不好(哪怕只是存在一些异常点),或者族的形状不是球形,或者族的大小不均匀时,根据不同的距离定义进行聚类的结果将差别很大。 基于层次的聚类 例如,在如下(a)数据集上应用dmax,davg,dmean距离定义时,将产生图(b)所示的族结构。 基于层次的聚类 类似地,在图(a)所示的数据集上应用dmean距离定义时,将产生图(b)所示的族结构。其中的单个细长的族被切分,而属于邻近的多个细长族的不同部分又被合并。另一方面,当在图(a)所示的数据集上应用dmin距离定义时,将产生图(c)所示的族结构。两个细长族被连接了起来,产生了“链条”现象。 基于层次的聚类 可以看出,dmean和dmin距离定义都不太适合非球形或大小不均匀的族结构。采用dmean作为距离定义的缺点是它只取一个点(即族的中心点)作为整个族的代表点。对于一个特别大的族或者形状不规则的族,在进行聚合层次聚类时,它下一层的孩子族的中心点可能离得很远,无法合并成一个族,导致本该属于同一个族的点被分离到不同的族中。 与之相反,当采用dmin作为距离定义时,又走向了另一个极端,考虑了族中所有的点,即将族中的每一个点都作为代表点对待,该方法的缺点是容易受异常点的干扰,数据点位置的微小变化都可能导致聚类结构的变化。 Recent Hi
文档评论(0)