- 11
- 0
- 约 8页
- 2017-08-31 发布于安徽
- 举报
数据挖掘在读者阅读需求偏好研究中的应用
刘军
(信阳师范学院图书馆 文献信息研究所 河南 信阳 464000)
摘要:利用数据挖掘技术对图书馆数据库进行数据挖掘拓展服务,逐渐成为图书馆需要开展的一项重要工作。通过挖掘图书馆自动化系统数据库研究读者阅读需求偏好特点,是实现个性化服务的一个重要环节和基础性工作,采用C4.5决策树算法具有更好的算法效率、准确率和鲁棒性
关键词:数据挖掘 决策树 阅读需求偏好
中图分类号:G250 文献标识码:A 文章编号:
Preference of Reading Research Based on Data Mining
Liu Jun
(Library of XinYang Normal University Institute for Documentation and Information HeNan XinYang 464000)
Abstract:
Using data mining technology to library databases has became an improtant task of library.By mining database of library automation system to research characteristics of readers reading, library can realize personalized services. Applying the C4.5 decision tree can get better efficiency, accuracy and robustness.
Keywords: data mining; decision tree; preference of reading
1引言
数据挖掘来源于数据库中知识发现(KDD),数据挖掘的算法包含在KDD过程中,Goebel和Gruenwald[1]将KDD定义为识别数据中有效的、新颖的、潜在有用的和易于理解的模式的非平凡过程,而将数据挖掘定义为观测数据中的模式或模型提取。目前,国内图书馆数据挖掘也有不少应用研究成果。从应用范围上分[2],有以下几个方面研究:在图书馆资源建设上的应用研究,在图书馆个性化信息服务中的应用研究,在图书馆管理上的应用研究等;从发现模式的种类分[3],可分为规则挖掘、聚类规则挖掘、预测分析、关联规则挖掘等。
利用数据挖掘技术对图书馆数据库进行数据挖掘,建立读者的阅读需求偏好模型,挖掘评价规则,了解不同阅读需求偏好读者的特点,有针对性的开展个性化的服务,是研究读者阅读偏好,有效拓展图书馆服务的重要途径。本文在对图书馆流通数据库进行数据预处理的基础上,试图使用C4.5决策树算法,将读者阅读需求偏好类型作为类标签,对影响分类的评价规则进行挖掘,以期揭示和研究读者阅读需求偏好特点,为拓展图书馆读者服务提供依据。
2 读者阅读需求偏好的划分和数据预处理
国内外对于读者阅读类型的划分有着广泛的研究。按阅读目地划分,如文献[4]将读者的阅读类型分为学习型、情报型、研究型、闲暇型四类,文献[5]将阅读分为认识型阅读、鉴赏性阅读、消遣娱乐性阅读、研究评价性阅读;按阅读主体划分,文献[6]将读者分为个人读者、集体读者、单位读者、临时读者,并按照读者结构特征对每一类作进一步划分。文献[7]将读者划分为三类:专业型读者、基础型读者、消遣型读者;按读者阅读需求划分,文献[8]把阅读分为社会型阅读需求、专业型阅读需求、研究型阅读需求、业余型阅读需求四类。综合以上分类,也考虑到实际挖掘读者阅读需求的可操作性,本文依据阅读需求偏好将读者划分为社会消遣型阅读需求偏好读者(S),专业研究型阅读需求偏好读者(P)两类。
数据预处理在实际的数据挖掘项目中是花费时间最长也是最为重要的工作。数据预处理始于数据理解,包括数据的含义和状况,数据是否可用,并将分散的的数据集中起来。数据集中形成宽表后,进行数据清理、变量变换和合成、变量选择等工作[9]。
2.1 数据理解和数据准备
2.1.1 数据采集、整理与合并
本文数据来源于图书馆自动化管理系统流通数据库。通过对数据库的分析表明,可用于读者阅读需求偏好挖掘的数据分布于流通数据库的多个表中。如读者信息可以从读者信息表(DZXXB)中得到,借阅信息可以从流通信息表(LTXXB)和流通历史表(LSXXB)中得到,书目信息可以从文献信息表(WXXXB)和条码信息表(TMXXB)中得到。
读者信息表包含了全部读者的信息,每一个借书证号对应一条记录。主要字段如表1所示,其中有些字段信息不全。
表1 读者信息表中的主要字段
字段名称 字段说明 字段名称 字段说明 办证日期 办理借书证日期 允借册
您可能关注的文档
- 浅析交互式电子白板在生物课堂教学中应用.doc
- 浅析胶辊及相关牵伸部件与成纱质量关系.doc
- 浅析卡诺图降维.doc
- 浅析科协青少年科技教育工作使命和特质.doc
- 浅析李白浪漫主义诗风形成原因.doc
- 浅析两种否定感应电流产生条件论点及成因.doc
- 浅析临床医学生实习与考研, 就业之间冲突与对策.doc
- 浅析柳永《 雨霖铃》 艺术技巧.doc
- 浅析美国高等工程教育课程设置特色及有益借鉴[J].doc
- 浅析美国中学生物教科书中几个模型构建.doc
- 2026甘肃酒泉市金塔县招聘城镇公益性岗位工作人员30人考试笔试备考题库及答案解析.docx
- 2026重庆渝北龙兴幼儿园招聘考试笔试备考题库及答案解析.docx
- 2026贵州黔东南州黄平县重安镇公益性岗位人员招聘2人考试笔试备考题库及答案解析.docx
- 2026年甘肃省兰州市皋兰县兰泉污水处理有限责任公司招聘考试笔试备考试题及答案解析.docx
- 2026年宝鸡市科技创新交流服务中心招聘(3人)考试笔试备考题库及答案解析.docx
- 婚宴上的致辞集合18篇.doc
- 2026北京顺义航旅纵横校招考试笔试模拟试题及答案解析.docx
- 2026河北石家庄市供热管理集团有限公司劳务派遣制人员招聘2人考试笔试模拟试题及答案解析.docx
- 2026安徽合肥国家实验室技术支撑岗位招聘2人考试笔试备考试题及答案解析.docx
- 2026江西农业大学校园建设处非全日制环卫合同工招聘1人考试笔试备考题库及答案解析.docx
最近下载
- 英雄起源一本通大陆系列是由吧在友qxqy19群雄基础.pdf VIP
- 湘2021G301预制带肋底板混凝土叠合楼板(混凝土肋、钢筋肋、钢管肋)(版本2).docx VIP
- SL352-2020 水工混凝土试验规程.docx VIP
- 2025年中国医疗人工智能行业投资潜力分析及行业发展趋势报告.docx
- SL677-2014 水工混凝土施工规范.docx VIP
- 2024-2034年中国医疗人工智能行业投资潜力分析及行业发展趋势报告.docx
- 湘2021G301预制带肋底板混凝土叠合楼板(混凝土肋、钢筋肋、钢管肋)(版本2).docx VIP
- 电摩知识培训课件图片.ppt VIP
- 平顶山工业职业技术学院《高等数学(D)》2025 - 2026学年第一学期期末试卷.docx VIP
- 110kV变电站专项电气试验及调试方案.doc VIP
原创力文档

文档评论(0)