对科技论文分类研究.pptVIP

  • 5
  • 0
  • 约3.48千字
  • 约 19页
  • 2016-12-16 发布于河南
  • 举报
对科技论文的数字文档的自动分类研究 作者:李森 山东大学计算机学院 引言 文本自动分类 传统的论文分类法对普通的文献进行分类时准确率为78%左右, 但是利用它对计算机和自动化类的科技文献按照中图分类法进行分类时准确率仅为56 %左右 。 背景介绍 传统的论文分类方法 由于传统的算法不适用于处理文本信息这种非结构的数据,因此必须将其进行结构化转换。近年来应用较多的是向量空间模型(Vector Space Model,VSM)。计算权值的方法有多种:词频统计法、词频逆文本频率(TFIDF)、WIDF算法、Shannon信息熵等.。 在对文本进行向量化后,利用学习算法对文本向量进行学习,以得到分类器(KNN,SVM,N-bayes)。 我们的工作 我们注意到科技论文是一种半结构化文挡,可以把论文的标题、关键词集合和摘要看作为论文的元数据,因为它们精简地反映了文章的核心内容,本文介绍了利用元数据单独分类的效果和利用元数据和分类法相结合的多层分类法。和单纯地使用支持向量机相比,本方法在分类精度和效率上均优于前者。 准备工作 实验:我们考虑比较用文本全文信息与仅用科技论文的标题、关键词和摘要部分作为测试集进行分类的差异。我们从搜集的文献中随机地抽出中图法分类号为TP391、TP392、TP393、TP399的文献:416篇作为测试集,500篇作为训练集。得到分类结果如下:

文档评论(0)

1亿VIP精品文档

相关文档