- 8
- 0
- 约1.08万字
- 约 20页
- 2018-08-30 发布于福建
- 举报
基于语义扩展数字文献自动分类方法研究
基于语义扩展数字文献自动分类方法研究
〔摘 要〕针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。
〔关键词〕数字文献;短文本分类;特征选择;语义扩展;分类性能
DOI:10.3969/j.issn.1008-0821.2015.09.013
〔中图分类号〕G2507 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0070-05
〔Abstract〕Aiming at the problems of inaccurate concept expression of text vector and poor classification effect which is caused by sparse feature keywords in digital documents of books and journal articles etc,the paper proposed a classification method based on the features of semantic extension.Firstly,this method adopted TF-IDF method to filter keywords that have higher ability of digital text representation and TF-IDF value than other common features.Secondly,to build the low dimensionality and semantic conceptual vector space,it extended semantic concept of core features collections based on the Hownet semantic dictionary and knowledge base of Wikipedia.Finally,it realized digital document automatic classification by applying MaxEnt and SVM algorithms.The result showed that the proposed method can more effectively expend short text on semantics and improve the classification performance of digital document compared with traditional short text classification method based on characteristic selection.
〔Key words〕digital document;short text classification;features selection;semantic extension;classification performance
数字图书馆的主要业务数据是馆藏的各种类型的文献资源,即使在大数据环境下,其核心业务仍然是针对这些种类众多的文献进行组织和安排,使各种类型的文献能够在数字图书馆中统一实现分类与检索。然而,针对数字文献的分类标引工作长期以来都是由编目人员手工去完成,既费时又费力。且由于信息的模糊性以及数字文献种类、数量的剧增,仅靠提高编目人员的业务素质来保证文献分类标引的准确性是不现实的,有必要将信息自动化技术引入图书编目、数字文献元数据的分类或主题标引之中。利用机器学习实现数字文献的自动分类已成为数字图书馆建设中亟待解决的关键问题之一[1]。
自动分类技术是指在给定的分类体系情况下,根据文本内容自动判定到相应预定义类别的过程[2]。目前主要采用向量空间模型进行文本信息结构化的表示,然而基于该模型下由于数字文献文本特征缺失会导致向量空间的高维和稀疏,且包含大量无效、冗余的特征,从而降低数字文献
您可能关注的文档
- 基于计算机视觉技术课堂自动考勤系统研究.doc
- 基于计算机视觉昆虫识别研究.doc
- 基于计算机视觉施工现场车辆监管技术研究.doc
- 基于计算机视觉植物黑腐病病斑分析.doc
- 基于计算机视觉测量技术PCB贴片检测研究与应用开发.doc
- 基于计算机视觉理论石材大板表面轮廓提取算法研究.doc
- 基于计算机视觉结构动位移测试.doc
- 基于计算机视觉葡萄叶部病害识别研究.doc
- 基于计算机视觉马铃薯外部品质检测应用研究.doc
- 基于计算机视觉运动目标跟踪算法.doc
- 2025年新外研版三年级上册英语同步教学课件.pptx
- 红十字会大讲堂管理制度.docx
- 技术奇点(Singularity)理论的科学基础、哲学思辨与未来社会构想 _2026年1月.docx
- 公共艺术项目在激活城市消极空间(如高架桥下、废弃铁轨)中的作用 _2026年1月.docx
- “双减”政策对校外培训行业转型及家庭教育投入变化的影响 _2026年1月.docx
- Z世代员工对职场“摸鱼文化”的态度成因与管理对策研究 _2026年1月.docx
- 跨文化团队管理中的沟通障碍、文化冲突与融合策略案例分析 _2026年1月.docx
- 共享经济平台将劳动者归类为“合作伙伴”的伦理与法律责任 _2026年1月.docx
- 大型国际展会(如进博会、CES)的绿色会展实践与可持续发展评估 _2026年1月.docx
- 地理标识产品(如阳澄湖大闸蟹)与产地旅游的融合发展研究 _2026年1月.docx
原创力文档

文档评论(0)