数据挖掘技术在数字图书馆中的应用研究.docxVIP

下载本文档

2
0
约5.45千字
约 11页
2018-01-18 发布于贵州
举报
版权申诉

数据挖掘技术在数字图书馆中的应用研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术在数字图书馆中的应用研究

数据挖掘技术在数字图书馆中的应用研究(XX大学医学部，XX100191)　　摘要：文章介绍了数据挖掘的主要技术，即关联规则和聚类算法，并针对XX林业大学数字图书馆数据的具体特点，将这两种关键技术运用到图书馆借阅信息挖掘过程中，通过分析挖掘结果，寻找借阅书刊一些潜在的规律，优化图书馆的馆藏布局，提高个性化服务质量。　　关键词：数据挖掘；关联规则；聚类算法；数字图书馆　　中图分类号：TP274文献标识码：A文章编号：[HTK]1007—6921(XX)04—0158—03　　随着高校图书馆数据库中数据量的迅速增加，如何使高校图书馆朝着自动化、数字化和信息化的方向发展，已成为目前迫切需要解决的问题。如果将数据挖掘技术很好的运用到图书馆数据库中，将会使其职能相应地实现转型，即除了传统的服务和教育职能外，还可以为高校的决策、管理及建设发展提供信息咨询与服务。这样可以使高校图书馆逐步成为开放的社会化数字图书馆，为师生的学习及科研创造更好的环境和氛围。1数据挖掘及其关键技术1.1数据挖掘的定义　　数据挖掘(DataMining,简称DM)，就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程［1］。它主要研究发现知识的各种方法和技术，并利用各种分析工具在海量数据中分析发现模型和数据间的潜在关系。1.2数据挖掘中的主要技术　　1.2.1关联规则。关联规则是数据挖掘的主要技术之一。所谓关联规则，就是寻找数据库中数据项(属性、变量)之间存在(潜在)的关联规则。利用关联规则的数据挖掘技术，可以找出大量数据之间未知的依赖关系。例如：通过对读者借阅行为进行关联规则分析，可以分析出不同图书类别中的潜在关系。虽然数据挖掘中频繁项集挖掘算法对于一些非稠密数据库能够取得较好的性能，但对于稠密数据库或者支持度阈值比较小时，频繁项集的数量会以指数形式增长，使得找出所有的频繁项集成为不可能的任务。但实际上，在频繁项集中，存在着较多的冗余，最大频繁项集的规模是所有频繁项集中最小的，并且可以导出频繁项集。因此我们可以使用最大频繁项集数据挖掘，提高关联规则挖掘效率。　　1.2.2聚类分析。聚类是一种常见的数据分析工具，其目的是把大量数据点的集合分成若干类，使得每个类中的数据之间最大程度地相似，而不同类中的数据最大程度地不同。因此在数据进行聚类这一过程中没有指导，是一种无监督分类。聚类分析是用数学方法研究和处理所给对象的分类以及各类之间的亲疏程度，是在对数据不作任何假设的条件下进行分析的技术［2］。2数据挖掘技术在图书馆借阅信息中的应用　　数据挖掘在商业领域内的应用给图书馆带来了很大启发，图书馆读者的特点是数量巨大、读者的年龄不同、工作性质和专业方向不同、研究领域更是差别很大，这样的读者特点给图书馆提出了不同的个性化要求。如何满足读者的需求，提高读者的满意度，给读者更好的服务，是一个值得研究的问题［3］。　　在读者利用图书馆的资源过程中会留下诸如读者基本信息、借阅历史、检索历史等有价值的大量信息，这正是图书馆工作者获取读者信息需求、读者分类、需求聚类的宝贵数据，获取这些信息就可以据此提供个性化信息服务，即根据读者兴趣文件或兴趣规则主动向读者提供有价值的资源。通过分析数据挖掘的结果，寻找各个学科领域中的一些相互关联的知识、优化图书馆的馆藏布局。图书馆数据库的各个表中包含很多信息，其中读者的借阅信息是主要信息之一，它直接面向读者，反应读者的借阅需求。下面以XX林业大学数字图书馆为例，对读者的借阅信息进行数据挖掘。2.1关联规则算法的应用　　应用关联规则算法对借阅数据进行挖掘，在图书馆优化书架书库的管理、发现学科间的隐性关联、指导读者的借阅行为和提供个性化服务等方面有积极作用。　　2.1.1提供个性化特色服务。在传统的期刊服务过程中，一般是用户提出信息服务请求，然后由图书馆员做出解答，后来出现了定制式服务，由图书馆员定期向用户提供与其所从事的课题有关的信息资料。显然，这二者都是由客户首先提出服务需求，然后才得到相应的服务。利用数据挖掘，完全可以根据用户借阅、查阅的历史资料以及正在从事的课题研究进行数据挖掘，从而了解用户的所需，确定个性化服务内容，主动将相关资料发送到他们手中［4］。另外，由于有的读者在借阅图书之前，有一些盲目性，不知道自己需要哪类书，什么书适合自己，因此可以根据挖掘出来的关联规则，指导读者借阅书籍，也利于他们今后的学习和研究。　　在进行数据挖掘前，首先选取XX年至XX年三年内XX林业大学图书馆所有读者借阅数据，并对数据进行预处理，将一些属性根据实际需要进行离散化，例如：用年级将大学生的年龄离散化为：00级、01级、02级、03级、04级、05