- 10
- 0
- 约3.86千字
- 约 5页
- 2023-08-14 发布于江苏
- 举报
11. 文本分类
上一章我们学习了 文本聚类,体验了无须标注语料库的便利性。然而无监督学习总归无法按照我们的意志预测出文档的类别,限制了文本聚类的应用场景。有许多场景需要将文档分门别类地归人具体的类别中,比如垃圾邮件过滤和社交媒体的自动标签推荐。在这一章中, 我们将介绍如何实现这些需求。
11.1 文本分类的概念
文本分类( text classification),又称文档分类( document classification),指的是将一个文档归类到一个或多个类别中的自然语言处理任务。文本分类的应用场景非常广泛,涵盖垃圾邮件过滤、垃圾评论过滤、自动标签、情感分析等任何需要自动归档文本的场合。
文本的类别有时又称作标签,所有类别组成了标注集,文本分类输出结果一定属于标注集。
文本分类是一个典型的监督学习任务,其流程离不开人工指导: 人工标注文档的类别,利用语料训练模型,利用模型预测文档的类别。
11.2 文本分类语料库
文本分类语料库的标注过程相对简单,只需收集一些文档, 人工指定每篇文档的类别即可。另外,许多新闻网站的栏目是由编辑人工整理的,如果栏目设置符合要求,也可以用爬虫爬取下来作语料库使用。其中,搜狗实验室就提供了这样一份语料库 ,详情见代码(自动下载语料库):
运行结果如下:
标注集:[教育, 汽车, 健康, 军事, 体育, 自然语言处理]
第一篇文档的类别:教育
当
原创力文档

文档评论(0)