数据挖掘在读者阅读需求偏好的研究中应用[J].docVIP

  • 11
  • 0
  • 约 8页
  • 2017-08-31 发布于安徽
  • 举报

数据挖掘在读者阅读需求偏好的研究中应用[J].doc

数据挖掘在读者阅读需求偏好研究中的应用 刘军 (信阳师范学院图书馆 文献信息研究所 河南 信阳 464000) 摘要:利用数据挖掘技术对图书馆数据库进行数据挖掘拓展服务,逐渐成为图书馆需要开展的一项重要工作。通过挖掘图书馆自动化系统数据库研究读者阅读需求偏好特点,是实现个性化服务的一个重要环节和基础性工作,采用C4.5决策树算法具有更好的算法效率、准确率和鲁棒性 关键词:数据挖掘 决策树 阅读需求偏好 中图分类号:G250 文献标识码:A 文章编号: Preference of Reading Research Based on Data Mining Liu Jun (Library of XinYang Normal University Institute for Documentation and Information HeNan XinYang 464000) Abstract: Using data mining technology to library databases has became an improtant task of library.By mining database of library automation system to research characteristics of readers reading, library can realize personalized services. Applying the C4.5 decision tree can get better efficiency, accuracy and robustness. Keywords: data mining; decision tree; preference of reading 1引言 数据挖掘来源于数据库中知识发现(KDD),数据挖掘的算法包含在KDD过程中,Goebel和Gruenwald[1]将KDD定义为识别数据中有效的、新颖的、潜在有用的和易于理解的模式的非平凡过程,而将数据挖掘定义为观测数据中的模式或模型提取。目前,国内图书馆数据挖掘也有不少应用研究成果。从应用范围上分[2],有以下几个方面研究:在图书馆资源建设上的应用研究,在图书馆个性化信息服务中的应用研究,在图书馆管理上的应用研究等;从发现模式的种类分[3],可分为规则挖掘、聚类规则挖掘、预测分析、关联规则挖掘等。 利用数据挖掘技术对图书馆数据库进行数据挖掘,建立读者的阅读需求偏好模型,挖掘评价规则,了解不同阅读需求偏好读者的特点,有针对性的开展个性化的服务,是研究读者阅读偏好,有效拓展图书馆服务的重要途径。本文在对图书馆流通数据库进行数据预处理的基础上,试图使用C4.5决策树算法,将读者阅读需求偏好类型作为类标签,对影响分类的评价规则进行挖掘,以期揭示和研究读者阅读需求偏好特点,为拓展图书馆读者服务提供依据。 2 读者阅读需求偏好的划分和数据预处理 国内外对于读者阅读类型的划分有着广泛的研究。按阅读目地划分,如文献[4]将读者的阅读类型分为学习型、情报型、研究型、闲暇型四类,文献[5]将阅读分为认识型阅读、鉴赏性阅读、消遣娱乐性阅读、研究评价性阅读;按阅读主体划分,文献[6]将读者分为个人读者、集体读者、单位读者、临时读者,并按照读者结构特征对每一类作进一步划分。文献[7]将读者划分为三类:专业型读者、基础型读者、消遣型读者;按读者阅读需求划分,文献[8]把阅读分为社会型阅读需求、专业型阅读需求、研究型阅读需求、业余型阅读需求四类。综合以上分类,也考虑到实际挖掘读者阅读需求的可操作性,本文依据阅读需求偏好将读者划分为社会消遣型阅读需求偏好读者(S),专业研究型阅读需求偏好读者(P)两类。 数据预处理在实际的数据挖掘项目中是花费时间最长也是最为重要的工作。数据预处理始于数据理解,包括数据的含义和状况,数据是否可用,并将分散的的数据集中起来。数据集中形成宽表后,进行数据清理、变量变换和合成、变量选择等工作[9]。 2.1 数据理解和数据准备 2.1.1 数据采集、整理与合并 本文数据来源于图书馆自动化管理系统流通数据库。通过对数据库的分析表明,可用于读者阅读需求偏好挖掘的数据分布于流通数据库的多个表中。如读者信息可以从读者信息表(DZXXB)中得到,借阅信息可以从流通信息表(LTXXB)和流通历史表(LSXXB)中得到,书目信息可以从文献信息表(WXXXB)和条码信息表(TMXXB)中得到。 读者信息表包含了全部读者的信息,每一个借书证号对应一条记录。主要字段如表1所示,其中有些字段信息不全。 表1 读者信息表中的主要字段 字段名称 字段说明 字段名称 字段说明 办证日期 办理借书证日期 允借册

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档