- 5
- 0
- 约3.48千字
- 约 19页
- 2016-12-16 发布于河南
- 举报
对科技论文的数字文档的自动分类研究 作者:李森 山东大学计算机学院 引言 文本自动分类 传统的论文分类法对普通的文献进行分类时准确率为78%左右, 但是利用它对计算机和自动化类的科技文献按照中图分类法进行分类时准确率仅为56 %左右 。 背景介绍 传统的论文分类方法 由于传统的算法不适用于处理文本信息这种非结构的数据,因此必须将其进行结构化转换。近年来应用较多的是向量空间模型(Vector Space Model,VSM)。计算权值的方法有多种:词频统计法、词频逆文本频率(TFIDF)、WIDF算法、Shannon信息熵等.。 在对文本进行向量化后,利用学习算法对文本向量进行学习,以得到分类器(KNN,SVM,N-bayes)。 我们的工作 我们注意到科技论文是一种半结构化文挡,可以把论文的标题、关键词集合和摘要看作为论文的元数据,因为它们精简地反映了文章的核心内容,本文介绍了利用元数据单独分类的效果和利用元数据和分类法相结合的多层分类法。和单纯地使用支持向量机相比,本方法在分类精度和效率上均优于前者。 准备工作 实验:我们考虑比较用文本全文信息与仅用科技论文的标题、关键词和摘要部分作为测试集进行分类的差异。我们从搜集的文献中随机地抽出中图法分类号为TP391、TP392、TP393、TP399的文献:416篇作为测试集,500篇作为训练集。得到分类结果如下:
您可能关注的文档
- 【考点】描信息的基本特征,了解信息技术的历史和发展趋势.doc
- 实验二 网信息资源检索技术与搜索引擎作业.doc
- 社科信息检实习题地理101王畅.doc
- 新编物理基学上册第3章课后习题(每题都有)详细答案.doc
- 上海图书馆文期刊全文数据库网上检索支付系统.doc
- 离散数学课练习3.doc
- 2014年季学期信息管理与信息系统专业《信息分析与决策》课程学习指导.doc
- JSP课程计.doc
- 第十章_C数据库操作.ppt
- CAD 第章.ppt
- 中国国家标准 GB/Z 18975.11-2026工业自动化系统与集成 流程工厂(包括石油和天然气生产设施)生命周期数据集成 第11部分: 基于RDFS方法论的参考数据工业简化用法.pdf
- GB 51251-2017 建筑防烟排烟系统技术标准 正式版加条文.pdf
- 《建筑防烟排烟系统技术标准》GB51251-2017(170822报批稿)规范.pdf
- 2025年人形机器人市场研究报告.docx
- 2025年人形机器人市场研究报告.pdf
- 从对话到执行:OpenClaw企业级智能体应用手册.pdf
- 《商业模式创新》.pdf
- Openclaw龙虾全维度安全实战指南.pdf
- 2025年IT行业项目管理调查报告.pdf
- 2025年宠物洗护市场复盘总结及新品趋势.pdf
最近下载
- 10/0.4kV变电所的设计(毕业学术论文设计).doc VIP
- 乐山3000吨多晶硅项目环评报告书.doc VIP
- [指南]一例上消化道出血的护理 个案护理.ppt VIP
- 部编人教版四年级下册道德与法治全册试卷(含答案) .pdf VIP
- 河道整治工程投标施工组织设计方案(建筑、机电、绿化).pdf VIP
- 9.2.2 用坐标表示平移(第1课时 点在坐标系中的平移)(课件)-七年级数学下(人教版2024).pptx VIP
- 会计学原理(北京交大)中国大学MOOC慕课 章节测验期中考试答案.pdf VIP
- 四川永祥多晶硅有限公司3000吨多晶硅环评报告.docx VIP
- 普及安全知识,提高避险能力主题班会ppt课件.pptx VIP
- 机器学习在反欺诈中的应用-第132篇.docx VIP
原创力文档

文档评论(0)