统计自然语言处理-刘挺 NLP_6.pdf

  1. 1、本文档共109页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类与分类 IRLAB 聚类 大纲 ? 聚类分析简介 ? 层次聚类 – 单连接和全连接聚类 – 组平均聚类 – 应用:改进语言模型 – 自顶向下聚类 ? 非层次聚类 – K-均值 – EM算法 什么是聚类分析? ? 聚类: 数据对象的集合 – 在同一个类中,数据对象是相似的 – 不同类之间的对象是不相似的 ? 聚类分析 – 一个数据集合分组成几个聚类 ? 聚类是一种无监督分类:没有预定义的类 ? 典型应用 – 作为一个独立的工具 透视数据分布 – 可以作为其他算法的预处理步骤 聚类在自然语言中的应用 ? 探测数据分析(exploratory data analysis ) – 例如词性标注,将相似的词作为同一种词性,对 前置词比较有效 – 对this和the 这种语法语义特征不一致的词,不总分 在一组的词不适合 ? 概化(generalization ) – 等价类,可以使用相同的上下文环境,解决数据 稀疏问题 – 同时聚类是学习的一种方法(推理Friday 的前置 词) 聚类算法类型 ? 层次聚类与非层次聚类 – 层次聚类的每一个节点是其父节点的一个子类, 叶节点对应的是类别中每一个单独的对象,常用 算法自底向上与自上向下(凝聚与分裂) – 非层次聚类只是简单的包括了每类的数量,体现 不了他们之间的层次关系,常用算法K-均值 ? 软聚类与硬聚类 – 硬聚类将每一个对象分到一个且只能是一个的类 别中,例如K-均值 – 软聚类刻画的是将对象归属不同类的程度,模糊 聚类(EM算法) 层次聚类和非层次聚类的比较 ? 层次聚类 ? 非层次聚类 – 适合于数据的详细 – 适合于大数据集合 描述 要求考虑效率较高 的情况 – 提供更多的信息 – K-均值是一种最简 – 没有单一的最好的 单的方法,并且有 算法 效的 – 效率没有非层次的 – K-均值采用欧氏 好 距,不能表达更广 泛的数据 – EM算法提供了类的 定义以及基于复杂 概率模型的数据的 分配 层次聚类 ? 自底向下的聚类 凝聚) – 每一项自成

您可能关注的文档

文档评论(0)

wwqqq + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档