统计自然语言理基础.pptVIP

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计自然语言理基础

统计自然语言处理基础 第14章 聚类 王建华 2007-09-07 提纲 聚类概述 用途 种类 “软”聚类,”硬”聚类 层级聚类 单连通、全连通 平均连通 自顶向下聚类 非层级聚类 K平均算法 EM算法 提纲 聚类概述 用途 种类 “软”聚类,”硬”聚类 层级聚类 单连通、全连通 平均连通 自顶向下聚类 非层级聚类 K平均算法 EM算法 聚类概述 聚类算法的目标: 是将一组对象划分成若干组或类别,简单地说就是相似元素同组、相异元素不同组的划分过程。 定义: 聚类是一个无指导的学习过程,它是指根据样本之间的某种距离在无监督条件下的聚簇过程。 聚类概述 用途: 在统计自然语言处理中,聚类算法有两个重要的用途: 1.用于试探性数据分析 2.概念一般化 聚类概述 用途: 1.用于试探性数据分析 当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特性时,这是一个首要步骤。 对于不懂英语的人也能通过下面的聚类树图对英文的词性有大致的了解。 聚类概述 用途: 2.概念一般化 以法英翻译为例,Friday前的介词未知,进行推断。 已有的英文数据:on Sunday, on Monday, on Thursday. 按照语法和语义聚类,Sunday, Monday, Thursday就会被聚到一类,因为它们有相同的上下文模式。 Until day-of-the-week, last day-of-the-week, day-of-the-week morning 同类中的元素具有互换性,因此可以推断on Friday的正确性。 聚类概述 聚类算法与分类算法的区别: 分类算法是一个有监督的学习过程,它需要对标注数据集合进行训练; 聚类算法则不需要”教师”的指导,不需要提供训练数据,倾向于数据的自然划分,因此被称为无监督的学习或者自动学习. 聚类概述 聚类算法的分类: 聚类算法可分为两大类: 层级聚类 非层级聚类 聚类概述 层级聚类 每个结点都是父类的一个类; 聚类可以表示成为树图的形式。 非层级聚类 类别结构简单; 类别之间的关系没有前者清晰; 是一个迭代过程: 初始聚类 分配样本数据 聚类概述 聚类算法的分类: 按照聚类方法不同划分: “硬”聚类; 每个样本只能属于一个聚类集合; “软”聚类; 一个对象可以同时属于几个聚类集合,但是属于各个类别的概率不同; 聚类概述 “硬”聚类 例:前面的单连通聚类树图所示的聚类。 层级聚类通常都是“硬”聚类; “软”聚类 评估单词和某个主题的相关程度时,它体现出来优势。 例:inning和score都是sport类的别中的单词,但是它们的概率分别是0.93和0.65,score属于government的概率为0.12,说明score还和其他类别有关。 提纲 聚类概述 用途 种类 “软”聚类,”硬”聚类 层级聚类 单连通、全连通 平均连通 自顶向下聚类 非层级聚类 K平均算法 EM算法 层级聚类 层级聚类算法分为“自底向上”和“自顶向下”两种: “自底向上”: 开始时每个对象都被作为一个类别,然后合并两个最相似的类别,直到只存在一个类别为止。 “自顶向下”: 开始时全体对象作为一个类别,然后每次迭代分割内聚度最小的类别集合,直到每个类别中只有一个对象。 在这两类算法中,都要用到相似度函数. 层级聚类 “自底向上”算法 (3、4)将每个对象初始化为一个类别; (8)判断最相似的两个聚类; (9)将选出的最相似的聚类进行合并。 层级聚类 “自顶向下” (4)所有样本做为一个类别; (7)选择最小内聚度的类别; (8)分割最小内聚度的类别集合。 层级聚类 三种相似度函数的大概计算原则 1.单连通聚类: 两个集合间最相似样本之间的相似度; 有好的局部一致性; 1.单连通聚类 层级聚类 三种相似度函数的大概计算原则 1.单连通聚类: 两个集合间最相似样本之间的相似度; 有好的局部一致性; 和最小生成树的方法很类似; 层级聚类 三种相似度函数的大概计算原则 2.全连通聚类 两个集合间最不相似样本之间的相似度; 考虑到了全局因素,避免了单连通算法中“拉长”区域的产生; 1.单连通聚类 层级聚类 三种相似度函数的大概计算原则 2.全连通聚类 两个集合间最不相似样本之间的相似度; 考虑到了全局因素,避免了单连通算法中“拉长”区域的产生; 假定“内部紧密”比“内部松散”聚类效果好; 例外:夏威夷岛火山; 比较而言,全连通聚类更适合统计自然语言处理的要求; 主要缺点在于它的算法复杂度是O(n3); 层级聚类 三种相似度函数的大概计算原则 3.平均连通聚类 集合内部样本之间的平均相似度; 是上述两种方法的折中方案; 可以替代全连通聚类,它的计算复杂度只有O(n2); 相似度函数计算原则 平均连通聚类 当

文档评论(0)

shaofang00 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档