自然语言处理10 文本聚类.docxVIP

  • 5
  • 0
  • 约7.25千字
  • 约 8页
  • 2023-08-14 发布于江苏
  • 举报
10. 文本聚类 正所谓物以类聚,人以群分。人们在获取数据时需要整理,将相似的数据归档到一起,自动发现大量样本之间的相似性,这种根据相似性归档的任务称为聚类。 10.1 概述 聚类 聚类(cluster analysis )指的是将给定对象的集合划分为不同子集的过程,目标是使得每个子集内部的元素尽量相似,不同子集间的元素尽量不相似。这些子集又被称为簇(cluster),一般没有交集。 一般将聚类时簇的数量视作由使用者指定的超参数,虽然存在许多自动判断的算法,但它们往往需要人工指定其他超参数。 根据聚类结果的结构,聚类算法也可以分为划分式(partitional )和层次化(hierarchieal两种。划分聚类的结果是一系列不相交的子集,而层次聚类的结果是一棵树, 叶子节点是元素,父节点是簇。本章主要介绍划分聚类。 文本聚类 文本聚类指的是对文档进行聚类分析,被广泛用于文本挖掘和信息检索领域。 文本聚类的基本流程分为特征提取和向量聚类两步, 如果能将文档表示为向量,就可以对其应用聚类算法。这种表示过程称为特征提取,而一旦将文档表示为向量,剩下的算法就与文档无关了。这种抽象思维无论是从软件工程的角度,还是从数学应用的角度都十分简洁有效。 10.2 文档的特征提取 词袋模型 词袋(bag-of-words )是信息

文档评论(0)

1亿VIP精品文档

相关文档