- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用数据挖掘技术提高图书馆中图书的利用率
班级:管信062
学号姓名:张倩
利用数据挖掘技术提高图书馆中图书的利用率
1.提出问题
图书馆是校园文化的重要体现。随着藏书量的不断增加,图书馆中的图书利用率问题渐渐涌现。主要体现在:a. 图书利用周期问题。比如一些旧书使用频率较低或者根本不再使用,但是还是在书架上摆放,占用空间。以致影响新书的摆放。也就是说:书的更新速度较慢,使得不能满足用户的需求。b. 随着出版物的数量日益增多,载体日益丰富,图书馆信息结构读者需求和资金利用平衡问题也越来越不易把握,这也令采购工作的决策变得更加复杂。简单的说就是在图书购置过程中,可能会买一些根本“无人问津”的书籍,造成金钱浪费和资源浪费等问题。现在利用数据挖掘的相关技术,建立数据仓库,通过分类分析等,解决以上出现的问题。以提高图书馆图书的利用率,使图书馆更好的为同学和老师们服务,发挥其最大的作用。
2.解决问题方案
2.1数据挖掘技术和发展
数据挖掘技术是随着计算机的广泛应用和数觉得大量积累而发展起来的,它同数据库知识发现和数据仓库有着密切的联系。其中数据仓库为数据挖掘提供了数据基础,为数据挖掘创造了更方便的数据条件。数据挖掘主要流行于统计,数据分析,数据库和管理信息系统领域。在技术上,数据仓库被定义为:是从大量的,不完全的,模糊的,随机的实际应用数据中,提取隐含在其中的,事先不知道的但又是潜在的有用的信息和知识的过程。换句话说:数据挖掘就是把人们对数据的应用从底层的简单查询提升到从数据值那个挖掘知识,提供决策支持。
数据挖掘是一种新的信息处理技术,它主要的特点是从数据库中的大量业务数据进行抽取,转换,分析和其他模型化处理,从中提取辅助决策的关键性数据。由此看来数据挖掘领域充满了机遇和挑战。
2.2图书馆中的数据挖掘具体工作
A.建立数据仓库
数据挖掘的技术基础之一是数据仓库,而数据仓库技术是源于数据库的技术,它主要的设计思想是将分析决策所所需的大量数据从传统的操作环境中分离出来,把分散的,难以访问的操作数据转换成集中的统一的,随时可用的信息而建立的一种数据库存储环境。人们对数据仓库的定义是面向主题的,集成的,具有时间特征的,稳定的数据集合,用以支持经营管理中的决策制定过程。简单的讲,数据仓库就是企业内部一个专门的,大型统一的数据存储,支持更快,更灵活,更有效地分析型数据查询。为什么要建设数据仓库的主要原因在于:数据仓库可以说是决策支持系统,它是在管理信息系统的基础上发展起来的,数据仓库提供的经过整理统计归纳的数据可以给决策者很多信息,并通过数据帮助决策者做出决策。所以建立数据仓库是很重要的事情。
在此我们要建立图书馆的数据仓库,用以收集信息。在学校图书馆系统中,我们在2008年9月就已经废弃了以前的图书借阅证的使用,而是实行校园一卡通方法。这样为直接收集同学们的借阅数据提供了便利。在这里我只简单说明针对图书馆数据仓库事实表和维表的设计。
在借阅过程中,我们可以以学生,书籍,借阅时间三方面定义三个维度来建立维表,然后建立事实表,来收集信息
维表包含的是相应维度的描述信息,这些信息用作查询的约束条件,一般是离散的,描述性的,不具有可加性的。如图所示:根据图书馆数据仓库建立的三个维表:学生维表,图书维表,借阅时间维表。
数据仓库多一般多采用多维数据模型,这样能更好的完成多维数据分析的需要。多维数据模型普遍采用的一种非常重要的模式就是星形模式,星形模式是由事实表和维表通过星形方式来连接而成,事实表包含的是借阅数据信息,这些信息用于分析型查询。数据取值通常是可度量的,连续型的,且具有可加性,数据量可以达到几百万甚至上一条记录。事实表中的借阅数据信息可以从多个维度查看,每一个维度对应一张维表。如图所示:
在数据仓库星形建模的基本工作完成之后,就应该开始进行数据聚集的设计。数据聚集是数据仓库系统的必备内容,它与分析型应用的需求密切相关,且与事实表和维表的设计紧密联系。就工作的时间和内容而言,它是数据仓库多维数据建模的后期工作,是事实表和维表设计工作的延续。
创建数据聚集首先确定数据聚集的内容,步骤如下:
(1)确定在各个维的哪些属性上需要进行数据的聚集,这里以时间维的月份和年份,图书维的图书种类,学生维的专业建立数据聚集。
(2)确定不同维的属性如何进行组合。
数据聚集建立后,由于分析型查询一般都比较复杂,数据仓库的数据量一般有比较大,因此建立索引提高数据仓库中数据的访问速度具有重要意义。所以这里还要建立索引。
明确了数据仓库体系结构的基本方案,完成了数据模型的设计后下面考虑数据预处理问题。对事实表和维表进行一些数据净化等工作。
数据仓库经过以上经过建设后,我
文档评论(0)