lecture17-hier-clustering (一) 第17讲 层次聚类 现代信息检索导论 知识讲稿.pptVIP

lecture17-hier-clustering (一) 第17讲 层次聚类 现代信息检索导论 知识讲稿.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lecture17-hier-clustering (一) 第17讲 层次聚类 现代信息检索导论 知识讲稿.ppt

* 全连接聚类的树状图 我们注意到该图比刚才单连接算法产生的树状图均衡得多 我们可以生成一个2个簇的结果,每个簇大小基本相当 * 课堂练习: 采用单连接和全连接方法进行聚类 * 单连接聚类 * 全连接聚类 * 单连接 vs. 全连接聚类 * 单连接方法的链化(Chaining)现象 单连接聚类算法往往产生长的、凌乱的簇结构。对大部分应用来说,这些簇结构并不是所期望的。 * 全连接算法会产生怎样的2个簇的结果? 坐标: 1 + 2 × ?, 4, 5 + 2 × ?, 6, 7 ? ? * 全连接法: 对离群点非常敏感 全连接聚类将d2和它的正确邻居分开----这显然不是我们所需要的 出现上述结果的最主要原因是存在离群点 d1. 这也表明单个离群点的存在会对全连接聚类的结果起负面影响 单连接聚类能够较好地处理这种情况 提纲 上一讲回顾 层次聚类介绍 单连接/全连接算法 质心/GAAC算法 其他实现变种 簇标签生成 * 质心法HAC 簇相似度为所有簇间文档对之间相似度的平均值 一个原始的粗糙实现方法效率不高 (O(N2)),但是上述定义相当于计算两个簇质心之间的相似度: 这也是质心HAC名称的由来 注意:这里是内积计算,而非余弦相似度 * 课堂练习:采用质心法进行聚类 * 质心法聚类 * 质心法聚类过程中的相似度颠倒(Inversion)现象 在相似度颠倒过程中,合并过程中相似度会增加,导致“颠倒”的树状图 下图中,第一次合并 (d1 ∪ d2) 的相似度是-4.0,第二次合并的相似度 ((d1 ∪ d2) ∪ d3) ≈ ?3.5. * 关于相似度颠倒现象 允许层次聚类的算法相对较差. 层次聚类的基本原理就是在任何给定的点,我们会找到给定大小的最连贯(具有凝聚性) 的结果 直观上看:小簇应该比大簇更连贯 相似度颠倒现象与此直觉相矛盾:我们产生了一个大簇,但是其连贯性超过其两个子簇 * 组平均凝聚式算法(GAAC) GAAC 也称为平均相似度准则,但是这个算法中不存在相似度颠倒现象 簇之间的相似度是所有文档对之间相似度的平均值(包括来自同一簇的算法) 但是不考虑文档自身的自相似度 * GAAC凝聚式聚类算法 同样,采用原始的简单实现算法复杂度会很高,达到O(N2),但是也存在一个等价的基于质心定义的高效算法: 同样需要指出,这里也是内积计算,而非余弦相似度 现代信息检索 层次聚类介绍 to Information Retrieval 现代信息检索 中科院研究生院2011年秋季课程《现代信息检索》 更新时间: Modern Information Retrieval 授课人:王斌 /~wangbin *改编自”An 层次聚类介绍 to Information retrieval”网上公开的课件,地址 /IR-book/ 第17讲 层次聚类 Hierarchical Clustering 2011/11/21 提纲 上一讲回顾 层次聚类介绍 单连接/全连接算法 质心/GAAC算法 其他实现变种 簇标签生成 提纲 上一讲回顾 层次聚类介绍 单连接/全连接算法 质心/GAAC算法 其他实现变种 簇标签生成 * 聚类在IR中的应用 * K- 均值算法 * 本讲内容 另一类聚类算法:层次聚类算法 层次聚类算法的多种具体实现方法 单连接法/全连接法/质心法/GAAC法 簇标签的生成问题 提纲 上一讲回顾 层次聚类介绍 单连接/全连接算法 质心/GAAC算法 其他实现变种 簇标签生成 * 层次聚类 层次聚类的目标是生成类似于前面提到的Reuters目录的一个层次结构: 这个层次结构是自动创建的,可以通过自顶向下或自底向上的方法来实现。最著名的自底向上的方法是层次凝聚式聚类(hierarchical agglomerative clustering,HAC)。 * 层次凝聚式聚类 (HAC) HAC会生成一棵二叉树形式的类别层次结构 到目前为止,我们的相似度都定义在文档之间,现在我们假设相似度定义在两个簇之间 接下来我们考

文档评论(0)

youngyu0329 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档