文本分类聚类.docVIP

  • 17
  • 0
  • 约4.34千字
  • 约 3页
  • 2017-08-15 发布于重庆
  • 举报
文本分类聚类.doc

文本分类与聚类(text categorization and clustering) 1. 概述 广义的分类(classification或者categorization)有两种含义:一种含义是有领导的学习(supervised learning)过程,另一种是无领导的学习(unsupervised learning)过程。通常前者称为分类,后者称为聚类(clustering),后文中提到的分类都是指有指点的学习过程。 给定分类系统,将文本集中的每个文本分到某个或者某几个类别中,这个过程称为文本分类(text categorization)。将文本聚集分组成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差异较大,这个过程称为文本聚类(text clustering)。 2.1 文本分类的步骤典范的文本分类进程可以分为三个步骤:1. 文本表现(Text Representation)这一过程的目标是把文本表示成分类器能够处理的。最常用的方法是向量空间模型,即把文本集表示成词-文档矩阵,矩阵中每个元素代表了一个词在相应文档中的权重。选取哪些词来代表一个文本,这个过程称为特点选择。常见的特征选择方法有文档频率、信息增益、互信息、期看交叉熵等等。为了分类过程中的计算量,经常还需要进行降维处理,比如LSI。 2. 分类器构建(Classifier Const

文档评论(0)

1亿VIP精品文档

相关文档