- 12
- 0
- 约4.17千字
- 约 6页
- 2016-10-29 发布于天津
- 举报
文本特征提取以及分类结果分析.doc
文本特征提取以及分类结果分析
目标:
提取文本中的关键信息,用于文本的自动分类。
要求:
编写特征提取程序,从训练语料中根据IG,MI,CHI或CE等指标,分别提取文本特征词集。
编写文本特征向量生成程序,根据得到的文本特征词集,生成任意文档的权值特征向量。为其它设计分类器的同学提供训练文档和测试文档的特征向量集。
编写统计程序,对其它同学的分类结果进行统计和分析,包括准确率(Precision)和找回率(Recall),以及综合指标(F-Measure=…)。
文本特征提取原理
文本特征提取是进行文本分类训练和识别的基础。其基本思路是基于向量空间面向(VSM――Vector Space Modal),即把一篇文本视为N为空间中的一个点。点的各维数据表示该文档的一个特征(数字化的特征)。而文档的特征一般采用关键词集,即根据一组预定义的关键词,以某种方法计算这些关键词在当前文档中的权重,然后用这些权重形成一个数字向量,这就是该文档的特征向量。
由上面的简介可知,这里有两个方面的问题:(1)如何定义“关键词集”(或称为“特征词集”);(2)如何就是某个关键词在一篇文本中的权重。
提取关键词集
首先,我们提取关键词的最终目的是为了对文本进行分类。一些词,如“的”,对应文本分类不可能有任何帮助;或者,“计算机”一词对进行“台独类”和“成人类”文章的分类也没有任何帮助。因此,关键词集是与
您可能关注的文档
最近下载
- 杰斐逊共情量表(护生版)的编译及信效度检验.pdf VIP
- 新疆生产建设兵团兴新职业技术学院2026 年高职(专科)综合评价招生《素质测试》面试模拟试题及参考答案.docx VIP
- 新型纺丝甬道技术在氨纶生产中的应用.docx VIP
- 2026年重庆市公务员《行测》考试真题_含答案版.pdf
- 2026年内蒙古公务员《行测》考试真题_含答案版.docx
- 高效蜂窝整流的大型氨纶纺丝甬道.pdf VIP
- 2026年四川省公务员《行测》考试真题_含答案版.pdf
- 第七章 万有引力与宇宙航行测试卷.docx VIP
- 2026年新疆公务员《行测》考试真题_含答案版.pdf
- 2026年云南省公务员《行测》考试真题_含答案版.pdf
原创力文档

文档评论(0)