统计自然语言处理基础.PPTVIP

  • 6
  • 0
  • 约4.1千字
  • 约 56页
  • 2017-11-01 发布于天津
  • 举报
统计自然语言处理基础 第14章 聚类 王建华 2007-09-07 提纲 聚类概述 用途 种类 “软”聚类,”硬”聚类 层级聚类 单连通、全连通 平均连通 自顶向下聚类 非层级聚类 K平均算法 EM算法 提纲 聚类概述 用途 种类 “软”聚类,”硬”聚类 层级聚类 单连通、全连通 平均连通 自顶向下聚类 非层级聚类 K平均算法 EM算法 聚类概述 聚类算法的目标: 是将一组对象划分成若干组或类别,简单地说就是相似元素同组、相异元素不同组的划分过程。 定义: 聚类是一个无指导的学习过程,它是指根据样本之间的某种距离在无监督条件下的聚簇过程。 聚类概述 用途: 在统计自然语言处理中,聚类算法有两个重要的用途: 1.用于试探性数据分析 2.概念一般化 聚类概述 用途: 1.用于试探性数据分析 当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特性时,这是一个首要步骤。 对于不懂英语的人也能通过下面的聚类树图对英文的词性有大致的了解。 聚类概述 用途: 2.概念一般化 以法英翻译为例,Friday前的介词未知,进行推断。 已有的英文数据:on Sunday, on Monday, on Thursday. 按照语法和语义聚类,Sunday, Monday, Thursday就会被聚到一类,因为它们有相同的上下文模式。 Until day-of-the-week

文档评论(0)

1亿VIP精品文档

相关文档