文本分类聚类.docVIP

下载本文档

17
0
约4.34千字
约 3页
2017-08-15 发布于重庆
举报

文本分类聚类.doc

文本分类与聚类(text categorization and clustering) 1. 概述广义的分类（classification或者categorization）有两种含义：一种含义是有领导的学习（supervised learning）过程，另一种是无领导的学习（unsupervised learning）过程。通常前者称为分类，后者称为聚类（clustering），后文中提到的分类都是指有指点的学习过程。给定分类系统，将文本集中的每个文本分到某个或者某几个类别中，这个过程称为文本分类（text categorization）。将文本聚集分组成多个类或簇，使得在同一个簇中的文本内容具有较高的相似度，而不同簇中的文本内容差异较大，这个过程称为文本聚类（text clustering）。 2.1 文本分类的步骤典范的文本分类进程可以分为三个步骤：1. 文本表现（Text Representation）这一过程的目标是把文本表示成分类器能够处理的。最常用的方法是向量空间模型，即把文本集表示成词－文档矩阵，矩阵中每个元素代表了一个词在相应文档中的权重。选取哪些词来代表一个文本，这个过程称为特点选择。常见的特征选择方法有文档频率、信息增益、互信息、期看交叉熵等等。为了分类过程中的计算量，经常还需要进行降维处理，比如LSI。 2. 分类器构建（Classifier Const

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

文本分类聚类.docVIP