对数字化科技论文的自动分类研究.pdfVIP

  • 2
  • 0
  • 约1.02万字
  • 约 4页
  • 2017-11-06 发布于湖北
  • 举报
第41卷第3期 山东大学学报(理学版) 2006年6月 v01.41No.3 OFSHANDONG Jun.2006 JOURNAL UNⅣE彤;nY 文章编号:1671.93s2{2006}03-oOSl-04 对数字化科技论文的自动分类研究 李 森1,马 军1,赵嫣1,雷景生1’2 (1.山东大学计算机科学与技术学院,山东济南250061; 2.海南大学计算机学院,海南海口570228) 摘要:针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文 的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的 分类精度;若基于领域知识所产生的分类法,先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度 要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文教要远远小于全体论文 数,故在分类类别数目较多且分类文本分布较为平坶的情况下。可极大地缩短分类的时间. 关键词:科技论文;文本分类;层次结构;分类精度;分类效率 中圈分类号:TPl8 文献标识码:A The onautomiticclassificationof documentsofscientific study digital papers LI YanlandLEI Senl,MAJunl,ZHAO Jing-shen91,2 of and (1.School Science Computer Technology,ShandongUniv.,Jinan250061,Shandong,China; of 2.School Scienceand Computer Technology,HalnanUniv.,Haikou570228,Hainan,China) scientific Abstract:Since semi-structural classificationmodelbasedonthemetadataof pIpe玛areusually documents,a hierarchy scientificis themetadataincludethe andSO show papersproposed,where Sets,abstracts the rifles,keyword on.Experin把nts oftheclassificationbasedonthemetadataof closetothatthe the is of classificationbasedon fulltext precision papers

文档评论(0)

1亿VIP精品文档

相关文档