数据挖掘技术及其在图书管理系统中应用.docVIP

下载本文档

9
0
约3.21千字
约 7页
2018-06-21 发布于福建
举报
版权申诉

数据挖掘技术及其在图书管理系统中应用.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术及其在图书管理系统中应用

数据挖掘技术及其在图书管理系统中应用　　摘要：利用数据挖掘技术，提出一种面向图书馆读者的简单可行的文件分类方法，该方法只需要网站日志文件中有关于读者使用的浏览纪录即可达到文件分类的功能。以这样的方式来进行数据和文件分类，可以方便图书管理系统的维护，并为读者查找利用馆藏资源提供便利。而且该方法可以更直接的反应读者的兴趣与偏好，有利于图书馆资源的及时优化与更新。　　关键词：图书管理文件分类数据挖掘　　中图分类号：G250 文献标识码：A 文章编号：1007-3973（2013）001-100-02 　　在当今信息爆炸的时代，图书馆馆藏资源尤其是电子资源越来越多，读者的要求越来越高，图书管理系统越来越复杂，如何才能使使广大读者便捷而有效地查找到所需资料是图书管理系统要解决的一个重大技术问题。　　图书管理系统的数据文件包括书目数据、条形码数据、读者数据、期刊数据及各类统计数据，它是全体工作人员集体劳动的成果，是图书馆开展各项业务活动的基础。从技术的层面看，文件分类方法的设计对图书管理系统的优劣具有决定性的影响。目前图书管理系统中采用的分类方法多是以文字内容涵义为依据来衡量文件间的相似度，这种基于内容的分类方式不能很好地符合使用者的需求，且系统维护不方便。本文基于数据挖掘技术，提出以使用者的浏览纪录为导向的方式，将使用者的浏览纪录加以群集，成为种使用者导向的群集分类方式，可方便地应用于图书管理系统中。　　1 数据挖掘技术　　数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。从广义上理解，数据、信息也是知识的表现形式，但是人们通常把概念、规则、模式、规律等看作知识，而把数据看作是形成知识的源泉。原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等，还可以用于数据自身的维护。　　数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询提升到从数据中挖掘知识，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。　　采用数据清理、数据集成和数据转换、数据归约等数据挖掘技术对图书数据进行预处理，不仅能节约系统资源，而且能对数据筛选使其更加具有规律性，从而提高数据挖掘过程的精度和性能。图书数据在经过一定的预处理后，用数据挖掘技术能更加快速准确地挖掘出隐藏在图书数据背后的有用的规则和潜在的信息，这将有利于合理配置图书馆的文献资源和提高资源的利用率，从而为读者提供个性化服务和对图书馆的服务提供决策支持，其研究成果的应用必将推动图书馆服务系统的完善，为社会提供更好的服务，创造良好的社会效益。　　2 基于数据挖掘技术的文件分类方法　　首先将管理系统日志文件中的数据分割为读者关键词使用数据与读者浏览数据两个部分，接着再由这两份数据表的整合而获得两者间的关联表，最后通过整合的关联表来计算网页间的相似度并获得最后的分类数据表。　　经过对数据的处理后，利用使用者查询纪录表数据中的关键字与IP地址作为起始数据，接着将表中的IP地址作为搜寻的条件在使用者浏览纪录表中进行搜寻，最后再将表中的关键词与查询后所得到的浏览网页新增至另一个汇总表。　　该方法的一个突出特点是可以解决搜寻引擎或是检索系统的查询字符串通常太短以至于无法包含充分的信息来分辨目标的文件的问题，与常用的单纯以使用者输入的关键词来相比，可以获得较多的关键词来对文章加以描述。获得了网页描述关键词句与权重后，就可以针对不同的两个页面之间的相似程度进行计算。　　这里要先对网页空间向量V1与V2稍做处理，处理的方是先将V1与V2向量内的数据做联集，产生联集的向量U，之后再分别将V1及V2与U比较，产生新的V1与V2向量。经过相似度计算后产生相似矩阵表，然后再采用群集算法来针对相似矩阵中的数据进行群集运算。　　3 在图书馆管理系统中的应用　　本研究所使用的FAQ系统内的资料采用经由人工整理后的分类资料，全部618篇的FAQ问题经过分类后被分成14大类。因为这些FAQ问题的资料是由人工判断分辨后所产生的，因此每个类别里的数据应该都具有某种程度的不同特性。　　本研究的评估方法是将模型系统在不同参数设定下执行产生的群集结果与先前经由人工分类的数据相比较，观察比较由本系统分群所产生的结果是否具有实质内容。而模型系统执行产生的结果是否具有实质内容的