文本特征提取以及分类结果分析.docVIP

  • 12
  • 0
  • 约4.17千字
  • 约 6页
  • 2016-10-29 发布于天津
  • 举报
文本特征提取以及分类结果分析.doc

文本特征提取以及分类结果分析 目标: 提取文本中的关键信息,用于文本的自动分类。 要求: 编写特征提取程序,从训练语料中根据IG,MI,CHI或CE等指标,分别提取文本特征词集。 编写文本特征向量生成程序,根据得到的文本特征词集,生成任意文档的权值特征向量。为其它设计分类器的同学提供训练文档和测试文档的特征向量集。 编写统计程序,对其它同学的分类结果进行统计和分析,包括准确率(Precision)和找回率(Recall),以及综合指标(F-Measure=…)。 文本特征提取原理 文本特征提取是进行文本分类训练和识别的基础。其基本思路是基于向量空间面向(VSM――Vector Space Modal),即把一篇文本视为N为空间中的一个点。点的各维数据表示该文档的一个特征(数字化的特征)。而文档的特征一般采用关键词集,即根据一组预定义的关键词,以某种方法计算这些关键词在当前文档中的权重,然后用这些权重形成一个数字向量,这就是该文档的特征向量。 由上面的简介可知,这里有两个方面的问题:(1)如何定义“关键词集”(或称为“特征词集”);(2)如何就是某个关键词在一篇文本中的权重。 提取关键词集 首先,我们提取关键词的最终目的是为了对文本进行分类。一些词,如“的”,对应文本分类不可能有任何帮助;或者,“计算机”一词对进行“台独类”和“成人类”文章的分类也没有任何帮助。因此,关键词集是与

文档评论(0)

1亿VIP精品文档

相关文档