文本特征提取以及分类结果分析.docVIP

下载本文档

12
0
约4.17千字
约 6页
2016-10-29 发布于天津
举报

文本特征提取以及分类结果分析.doc

文本特征提取以及分类结果分析目标：提取文本中的关键信息，用于文本的自动分类。要求：编写特征提取程序，从训练语料中根据IG，MI，CHI或CE等指标，分别提取文本特征词集。编写文本特征向量生成程序，根据得到的文本特征词集，生成任意文档的权值特征向量。为其它设计分类器的同学提供训练文档和测试文档的特征向量集。编写统计程序，对其它同学的分类结果进行统计和分析，包括准确率(Precision)和找回率(Recall)，以及综合指标（F-Measure=…）。文本特征提取原理文本特征提取是进行文本分类训练和识别的基础。其基本思路是基于向量空间面向（VSM――Vector Space Modal），即把一篇文本视为N为空间中的一个点。点的各维数据表示该文档的一个特征（数字化的特征）。而文档的特征一般采用关键词集，即根据一组预定义的关键词，以某种方法计算这些关键词在当前文档中的权重，然后用这些权重形成一个数字向量，这就是该文档的特征向量。由上面的简介可知，这里有两个方面的问题：（1）如何定义“关键词集”（或称为“特征词集”）；（2）如何就是某个关键词在一篇文本中的权重。提取关键词集首先，我们提取关键词的最终目的是为了对文本进行分类。一些词，如“的”，对应文本分类不可能有任何帮助；或者，“计算机”一词对进行“台独类”和“成人类”文章的分类也没有任何帮助。因此，关键词集是与

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

文本特征提取以及分类结果分析.docVIP