- 2
- 0
- 约1.02万字
- 约 4页
- 2017-11-06 发布于湖北
- 举报
第41卷第3期 山东大学学报(理学版) 2006年6月
v01.41No.3 OFSHANDONG Jun.2006
JOURNAL UNⅣE彤;nY
文章编号:1671.93s2{2006}03-oOSl-04
对数字化科技论文的自动分类研究
李 森1,马 军1,赵嫣1,雷景生1’2
(1.山东大学计算机科学与技术学院,山东济南250061;
2.海南大学计算机学院,海南海口570228)
摘要:针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文
的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的
分类精度;若基于领域知识所产生的分类法,先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度
要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文教要远远小于全体论文
数,故在分类类别数目较多且分类文本分布较为平坶的情况下。可极大地缩短分类的时间.
关键词:科技论文;文本分类;层次结构;分类精度;分类效率
中圈分类号:TPl8 文献标识码:A
The onautomiticclassificationof documentsofscientific
study digital papers
LI YanlandLEI
Senl,MAJunl,ZHAO Jing-shen91,2
of and
(1.School Science
Computer Technology,ShandongUniv.,Jinan250061,Shandong,China;
of
2.School Scienceand
Computer Technology,HalnanUniv.,Haikou570228,Hainan,China)
scientific
Abstract:Since semi-structural classificationmodelbasedonthemetadataof
pIpe玛areusually documents,a
hierarchy
scientificis themetadataincludethe andSO show
papersproposed,where Sets,abstracts the
rifles,keyword on.Experin把nts
oftheclassificationbasedonthemetadataof closetothatthe the
is of classificationbasedon fulltext
precision papers
原创力文档

文档评论(0)