《统计自然语言处理与信息检索》第9讲文本聚类概述 2.pptVIP

《统计自然语言处理与信息检索》第9讲文本聚类概述 2.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本聚类 孙越恒 yhs@tju.edu.cn 提纲 聚类概述 用途 种类 “软”聚类/”硬”聚类 层级聚类 单连通、全连通 平均连通 自顶向下聚类 非层级聚类 K平均算法 EM算法 1. 聚类概述—目标、定义 聚类算法的目标: 是将一组对象划分成若干组或类别,简单地说就是相似元素同组、相异元素不同组的划分过程。 定义: 聚类是一个无指导的学习过程,它是指根据样本之间的某种距离在无监督条件下的聚簇过程。 1. 聚类概述—用途(1) 用途: 在统计自然语言处理中,聚类算法有两个重要的用途: 用于试探性数据分析 概念一般化(元素之间的可互换性) 1. 聚类概述—用途(2) 用于试探性数据分析 当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特性时,这是一个首要步骤。 对于不懂英语的人也能通过下面的聚类树图对英文的词性有大致的了解。 1. 聚类概述—用途(3) 概念一般化 Friday前的介词未知,进行推断。 已有的英文数据:on Sunday,on Monday,on Thursday。 按照语法和语义聚类,Sunday,Monday, Thursday,Friday就会被聚到一类,因为它们有相同的上下文模式。 Until day-of-the-week,last day-of-the-week,day-of-the-week morning 同类中的元素具有互换性,因此可以推断on Friday的正确性。 1. 聚类概述—与分类的区别 聚类算法与分类算法的区别: 分类算法是一个有监督的学习过程,它需要对标注数据集合进行训练; 聚类算法则不需要”教师”的指导,不需要提供训练数据,倾向于数据的自然划分,因此被称为无监督的学习或者自动学习。 1. 聚类概述—算法分类(1) 聚类算法的分类: 聚类算法可分为两大类: 层级聚类 非层级聚类 1. 聚类概述—算法分类(2) 层级聚类 每个结点都是父类的一个类; 聚类可以表示成为树图的形式。 非层级聚类 类别结构简单; 类别之间的关系没有前者清晰; 是一个迭代过程: 初始聚类 分配样本数据 1. 聚类概述—算法分类(3) 聚类算法的分类: 按照对象是否可以兼类划分: “硬”聚类; 每个对象只能属于一个聚类集合; “软”聚类; 一个对象可以同时属于几个聚类集合,但是属于各个类别的概率不同; 2. 层级聚类 层级聚类算法分为“自底向上”和“自顶向下”两种: “自底向上”: 开始时每个对象都被作为一个类别,然后合并两个最相似的类别,直到只存在一个类别为止。 “自顶向下”: 开始时全体对象作为一个类别,然后每次迭代分割内聚度最小的类别集合,直到每个类别中只有一个对象。 在这两类算法中,都要用到相似度函数. 2. 层级聚类—自底向上算法 2. 层级聚类—自顶向下算法 2. 层级聚类—相似度计算 三种相似度函数的计算原则 1.单连通聚类: 两个集合间最相似样本之间的相似度; 2. 层级聚类—相似度计算:单连通聚类(1) 2. 层级聚类—相似度计算:单连通聚类(2) 三种相似度函数的大概计算原则 1.单连通聚类: 拉长聚类区域(链式效应); 没有考虑全局情况(a/e和a/d); 2. 层级聚类—相似度计算:全连通聚类(1) 三种相似度函数的大概计算原则 2.全连通聚类 两个集合间最不相似样本之间的相似度; 考虑到了全局因素,避免了单连通算法中“拉长”区域的产生; 2. 层级聚类—相似度计算:全连通聚类(2) 2. 层级聚类—相似度计算:全连通聚类(3) 三种相似度函数的大概计算原则 2.全连通聚类 比较而言,全连通聚类更适合统计自然语言处理的要求; 主要缺点在于它的算法复杂度是O(n3); 2. 层级聚类—相似度计算:平均连通聚类(1) 三种相似度函数的大概计算原则 3.平均连通聚类 集合内部样本之间的平均相似度; 是上述两种方法的折中方案; 计算复杂度只有O(n2); 2. 层级聚类—相似度计算:平均连通聚类(2) 平均连通聚类 当样本定义在m维空间时,相似度量可以采用余弦法: 2. 层级聚类—相似度计算:平均连通聚类(3) 平均连通聚类 平均相似度S的定义: 为非零相似度的总数 2. 层级聚类—相似度计算:平均连通聚类(4) 平均连通聚类 算法每次迭代都确定两个集合cu和 cv,使 最大; 减少计算量: 先计算: ,聚类合并时这 个值很容易更新; S(cj)的计算可以利用 2. 层级聚类—相似度计算:平均连通聚类(5) 平均连通聚类 2. 层级聚类—相似度计算:平均

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档