自然语言处理11 文本分类.docxVIP

下载本文档

10
0
约3.86千字
约 5页
2023-08-14 发布于江苏
举报

自然语言处理11 文本分类.docx

11. 文本分类上一章我们学习了文本聚类，体验了无须标注语料库的便利性。然而无监督学习总归无法按照我们的意志预测出文档的类别，限制了文本聚类的应用场景。有许多场景需要将文档分门别类地归人具体的类别中，比如垃圾邮件过滤和社交媒体的自动标签推荐。在这一章中，我们将介绍如何实现这些需求。 11.1 文本分类的概念文本分类( text classification),又称文档分类( document classification),指的是将一个文档归类到一个或多个类别中的自然语言处理任务。文本分类的应用场景非常广泛，涵盖垃圾邮件过滤、垃圾评论过滤、自动标签、情感分析等任何需要自动归档文本的场合。文本的类别有时又称作标签，所有类别组成了标注集，文本分类输出结果一定属于标注集。文本分类是一个典型的监督学习任务，其流程离不开人工指导: 人工标注文档的类别，利用语料训练模型，利用模型预测文档的类别。 11.2 文本分类语料库文本分类语料库的标注过程相对简单，只需收集一些文档，人工指定每篇文档的类别即可。另外，许多新闻网站的栏目是由编辑人工整理的，如果栏目设置符合要求，也可以用爬虫爬取下来作语料库使用。其中，搜狗实验室就提供了这样一份语料库，详情见代码(自动下载语料库): 运行结果如下: 标注集：[教育, 汽车, 健康, 军事, 体育, 自然语言处理] 第一篇文档的类别：教育当

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

自然语言处理11 文本分类.docxVIP