- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于WEKA软件的图书馆数据挖掘研究
摘要:根据目前图书馆数据越来越多,而潜在数据很难开发并挖掘出来的现状。该文以数据挖掘技术为基础,利用WEKA软件作为图书馆数据挖掘工具,通过WEKA里的J48树算法和数据关联等算法,对图书馆的馆藏数据进行相应的分析,从海量数据中挖掘出用户需要的有用数据,并得到合理的统计结果。最终达到提高工作效率,能够科学管理的目的。
关键词:数据挖掘;WEKA;J48;数据关联;图书馆
中图分类号:TP391文献标识码:A文章编号:1009-3044(2009)24-6930-03
The Data Mining Research of Library which base on WEKA
MA Lin, DING Yong
(ZheJiang Medical College, Hangzhou 310053, China)
Abstract: According to the status of the mumber of library data become more and more,it’s very difficult to develop the potential of data. This paper is based on data mining technology,use WEKA as a library data mining software tool,use WEKAs J48 tree algorithm and data association analysis library data.Mining useful data which user needs from the mass library data and get Reasonable results.Ultimately to improve work efficiency and scientific management.
Key words: data mining; WEKA; J48; data association; library
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,存在于这个世界和我们生活中的数据总量正在不断增长,积累的数据量越来越多。隐藏在这些数据后的是信息,具有潜在用处的信息很少被发现或者用于应用,我们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
当今,知识资本正在取代传统物质资本在生产中的地位,成为知识经济时代最重要的生产资料 而如何获取知识便成为广大研究者和工程人员关注和研究的重点。利用数据挖掘技术从大量的数据中所取隐含在其中的、人们事先不知道的、潜在的、有用的知识。[1]
与此同时,图书馆数字化程度与数字图书馆的建设不断发展。图书馆要处理和提供的信息更多、更新、更广泛、更复杂。在图书馆现有的数字化系统中每年、每月、每天产生着大量的统计数据和表单,它们对图书馆馆藏建设等业务有着很强的指导作用。[2]
1 数据挖掘概述
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。[3]
用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(KDD:Knowledge Discovery in Databases)的产生,数据挖掘是KDD最核心的部分。[4]数据挖掘就是通过分析存在于数据库里的数据来解决问题。在数据挖掘中计算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式,进而挖掘出潜在的有用的信息。数据挖掘就是通过分析存在于数据库里的数据来解决问题。[5]
2 数字图书馆
数字图书馆(Digital Library DL),是新世纪产生的一个全新的概念。随着计算机技术的迅猛发展,特别是网络技术?p数码存储与传输技术等的全面普及,使得人们对文献信息的加工?p存储?p查询?p利用等方面有了新的要求。因此,数字图书馆也就应运而生。数字图书馆以组织数字化信息及其技术进入图书馆并提供有效服务。几乎图书馆的所有载体的信息均能以数字化的形式获得,包括所有联机采购?p编目?p公共查询;对各种信息资源的检索,通过网络组织读者访问外界数字图书馆和文献信息数据库系统,如电子杂志?p电子图书?p声像资料?p动画片?p影视片?p多媒体资料等:用计算机系统管理图书?p期刊等的读者服务;图书馆利用网络连接到全球各个
文档评论(0)