基于机器学习的中文书目自动分类研究-中国图书馆学报.PDF

基于机器学习的中文书目自动分类研究-中国图书馆学报.PDF

基于机器学习的中文书目自动分类研究-中国图书馆学报

028 基于机器学习的中文书目自动分类研究* 王摇 昊摇 严摇 明摇 苏新宁 摘摇 要摇 面对与日俱增的图书出版量,图书馆编目人员的手工书目分类显得力不从心,如何实现由计算机自动完 成图书分类成为数字图书馆建设中亟待解决的关键问题之一。 本文尝试将BP神经网络和支持向量机等机器学 习算法引入到书目分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,提出了采用特征加权方 式描述书目和浅层次分类体系构建的设计思路,并通过大规模实验验证了该模型的可行性和合理性,基本上解决 了没有主题标注情况下书目的自动分类问题。 图9。 表5。 参考文献14。 关键词摇 机器学习摇 书目自动分类摇 特征加权摇 中图法摇 浅层次分类模型 分类号摇 TP391 ABSTRACT摇 Books classification by computer has become one of the most critical issue which should been solved immediately in digital library construction because of increasing volume of book publishing. Thispaper triesto induct the BP nerve net and Support Vector Machine algorithms to bibliography classification熏 and establish bibliography hierarchy classification system modelbasedonmachinelearningfacedtotheChineseLibrary Classification熏 thenproposethedesign ideas ofdescribingbibliographiesusingfeatureweightedmodeandconstructingshallowclassificationsystem. Itverifiesthe feasibility and rationality of the model by large鄄scale experiment熏 and basically solves the case of the bibliography automatic classification without theme labeling熏 which lays a theoretical foundation for constructing the practical bibliography automatic classification system熏 and providesfactual basisfor thewiderange application of machinelearning methodsfor the construction of digital libraries. 9 figs. 5 tabs. 14 refs. KEY WORDS摇 Machine learning.摇 Automatic bibliography classification.摇 Feature weighted.摇 The Chinese Library Classification.摇 Shallow classification model. CLASS NUMBER摇 TP391 更是编目工作中的核心任务之一,也是实现海 1摇 引言 量图书有效管理的基本前提。 目前,中文图书 的分类多采用手工方式,或由图书作者或由图 随着信息技术的发展和成熟,信息自动化 书编目人员给出中图法分类号。 然而,图书作 技术应用于传统图书馆以建立数字图书馆,实 者给出的分类号带有明显的主观性和非专业 现图书馆资源的数字化、工作的自动化,已经成 性,不利于图书的统一管理;面对巨大的图书出 [1] 版量,具有专业知识的图书编目人员在手工进 为目前各级图书馆的首要任务 。 在图书馆的 各项工作中,图书编目是一项繁杂的基础性工 行图书分类时显得心有余而力不足,不仅需要 作,

文档评论(0)

1亿VIP精品文档

相关文档