数据挖掘技术在图书馆构建中应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在图书馆构建中应用

数据挖掘技术在图书馆构建中应用摘要: 随着数据库管理系统在图书馆中的应用,系统中积累的数据越来越多,如何选择并有效利用数据挖掘工具充分挖掘出积累数据中隐含的有价值的信息,为读者提供更加人性化的服务是图书馆管理人员面临的问题。就利用SQL Server2008这一数据库管理系统对学校图书馆中的数据进行挖掘做探讨。 关键词: 数据挖掘;建模;SQL Server2008;朴素贝叶斯 0 引言 图书馆作为高校的一个重要组成部分,其管理方式的信息化亦是高校管理信息化的重要体现。图书馆图书借阅资料繁多,很多的数据需要管理。若采取手工方式对图书资料和图书借阅情况进行管理,由于资料繁多,手工处理的工作量大,整体管理效率低下,也不方便读者对图书资料的查阅。如今,虽然大多数的图书馆都采用了数据库管理系统,但是数据挖掘功能还没有被充分利用。SQL Server2008是一款非常重要数据库管理系统,其中的数据挖掘功能,可以挖掘出图书管理系统中大量有价值的信息,为管理者提供参考,为读者提供更加个性化的服务。 1 数据挖掘的概念 简单地说,数据挖掘就是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。数据挖掘通过对查询内容进行模式的总结和内在规律的搜索,帮助管理者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持。数据挖掘技术还能够用于信息管理、查询处理和过程控制等。它与传统的数据分析(查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。 2 数据挖掘的方法[1] 数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法)等;机器学习方法中包括归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法、粗糙集等。 3 数据挖掘建模应用图书构建中 3.1 挖掘工具的选择 SQL Server2008中的数据挖掘组件是数据挖掘工具的典型代表,系统中引入了多个新的数据挖掘算法,与传统的数据挖掘工具相比,SQL Server2008数据挖掘功能具备很多优势,因为它与所有SQL Server产品实现了集成,包括SQL Server、SQL Server Integration Services和Analysis Services。SQL Server2008数据挖掘功能具有实用性、可伸缩性和可扩展性等特点,同时它包含简单而丰富的API。基于SQL Server2008有着非常实用的数据挖掘功能,所以选择完整表达出图书类别的信息作为数据挖掘的工具。[2] 3.2 数据的收集及整理 本学校采用计算机管理图书的时间还不长,系统功能还较简单,相关数据整理起来也相对比较杂: 1)在服务器端导出Excel格式的图书信息表、借书记录表。因为系统功能比较简单,图书信息表格中只有类别编号,没有类别名称,不能完整表达出图书类别的信息,所以需要人工将数据导出来之后,进行数据汇总。 2)启动SQL Server2008 Management Studio,在对象资源管理器中新建一个数据库“library”数据库,然后建立“lib”表,将数据填写在表中,如图1。ID:编号,yxzy:是否是医学专业,sjlx:书籍类型,js:借书情况,xj:是否续借,jdrs:接待人数。 3.3 对library数据库进行数据挖掘,建立模型 1)启动SQL Server Business Intelligence Development Studio,新建一个商业智能项目。 2)新建数据源(DS),把library数据库添加进来。 3)新建一个数据库数据源视图(DSV)。 4)使用数据挖掘向导建立数据挖掘结构和挖掘模型。 5)处理挖掘模型。 6)使用挖掘模型进行分析、预测。 3.4 对挖掘的信息进行分析汇总 1)该表通过数据汇总之后,摘录了18条有代表性的记录,进行分析。按是否是医学专业类别分书籍,共为两类:是和否;借书情况分为三类:好、一般、差。是否续借,分为两类:是和否;接待人数分为三类:200。以100和200为基准的原则是按照各个系别的人数划分,有些医学专业的人数比较多,例如临床医学,有些则适中如解剖,有些则是非医学专业的人数比较少,如:计算机。 2)采用Microsoft Naive Bayes数据挖掘技术继续分析。Naive Bayes是数据挖掘十大经典算法之一,在众多

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档