自然语言处理10 文本聚类.docxVIP

下载本文档

5
0
约7.25千字
约 8页
2023-08-14 发布于江苏
举报

自然语言处理10 文本聚类.docx

10. 文本聚类正所谓物以类聚，人以群分。人们在获取数据时需要整理，将相似的数据归档到一起，自动发现大量样本之间的相似性，这种根据相似性归档的任务称为聚类。 10.1 概述聚类聚类(cluster analysis )指的是将给定对象的集合划分为不同子集的过程，目标是使得每个子集内部的元素尽量相似，不同子集间的元素尽量不相似。这些子集又被称为簇(cluster),一般没有交集。一般将聚类时簇的数量视作由使用者指定的超参数，虽然存在许多自动判断的算法，但它们往往需要人工指定其他超参数。根据聚类结果的结构，聚类算法也可以分为划分式(partitional )和层次化(hierarchieal两种。划分聚类的结果是一系列不相交的子集，而层次聚类的结果是一棵树，叶子节点是元素，父节点是簇。本章主要介绍划分聚类。文本聚类文本聚类指的是对文档进行聚类分析，被广泛用于文本挖掘和信息检索领域。文本聚类的基本流程分为特征提取和向量聚类两步，如果能将文档表示为向量，就可以对其应用聚类算法。这种表示过程称为特征提取，而一旦将文档表示为向量，剩下的算法就与文档无关了。这种抽象思维无论是从软件工程的角度，还是从数学应用的角度都十分简洁有效。 10.2 文档的特征提取词袋模型词袋(bag-of-words )是信息

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

自然语言处理10 文本聚类.docxVIP