关联规则在图书馆中的应用.docVIP

下载本文档

13
0
约 5页
2017-01-24 发布于北京
举报
版权申诉

关联规则在图书馆中的应用.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关联规则在图书馆中的应用.doc

关联规则在图书馆中的应用　　〔摘要〕介绍了关联规则的相关概念及理论知识，然后针对关联规则的经典算法Apriori算法提出了改进，即Apriori-high算法，以及改进算法的好处，最后介绍了关联规则在图书馆中的应用，可以提高读者的效率，更好的为读者服务。　　〔关键词〕关联规则；图书馆；Apriori算法　　DOI：10.3969/j.issn.1008-0821.2013.05.005 　　〔中图分类号〕G250〔文献标识码〕A〔文章编号〕1008-0821（2013）05-0017-04 　　114最小支持度和最小可信度　　最小支持度是指项集满足它的最小支持度，最小支持度也称支持度阈值，通常记作minsup。最小可信度或者称最低置信度，指项集满足它的最小可信度或者最小置信度，最小可信度也称置信度阈值，通常记作minconf。　　115关联规则产生　　关联规则产生是找出所有支持度不小于最小支持度且置信度不小于最小置信度的规则。即S（A→B）≥minsup，C（A→B）≥minconf。　　因此，我们可将关联规则挖掘问题分为以下的两个子问题：　　频繁项集找出所有满足最小支持度阈值的项集，我们称这些项集为频繁项集体。　　规则的发现或者规则的产生找出满足频繁项集和置信度阈值的规则，我们把这些规则称为强规则。　　12关联规则中的Apriori（先验）算法　　关联规则挖掘的算法有很多种，Apriori（先验）算法是首个关联规则挖掘算法。下面介绍的就是关联规则最经典的算法——Apriori（先验）算法[23]。其基本思想是：第一步，产生频繁1-项集L1，初始时每个项都被看作候选1-项集，我们记为C1，扫描整个数据库，对C1计数，根据已知的最小支持度计数，删除C1中不满足最小支持度的项，得到频繁1-项集L1。第二步，产生频繁2-项集L2，由L1产生候选2-项集C2，扫描数据库，同样的删除C2中小于最小支持度的项，得到频繁2-项集L2。以此类推，第N步，产生频繁N-项集LN，根据前面一步得到的频繁（N-1）-项集LN-1，与自己连接产生N-项候选项集CN，然后扫描数据库，确定CN中各项的支持度，删除不满足最小支持度的项，得到频繁N-项集LN。　　14改进算法Apriori-high算法概述　　针对Apriori算法的两个不足之处，前面一节中提出了几种改进的算法，但是针对我院即江苏农林职业技术学院图书馆的数据量比较庞大，而且随着时间的增加，数据库中存储的数据量会越来越大，这时，Apriori算法中通过重复的扫描数据库的已经变得不太现实，如何来处理这个问题，我们针对这个问题，提出了一种新的改进算法，即Apriori-high算法。　　Apriori-high算法扫描数据库时为了产生更高效的频繁项集，在第K步时，可以通过（K-1）-项频繁项集产生K-项频繁项集，其中在得到（K-1）-项频繁项集的时候，可以对此项频繁项集中出现的元素个数进行计数。对出现的元素计数完成后，可以删除那些计数个数小于（K-1）的元素。这样由该元素组合的大规模的情况就可以排除在外。因为假如说某个元素要成为K-项频繁项集中的一员，那么此元素的（K-1）项频繁项集计数个数一定要大于（K-1），否则它是不会生成K-项集的。并且在此运算过程中，我们只需要扫描一遍原始数据库，比如可以利用LK-1得到的结果对事务数据库D缩减，可以将不满足条件的项和项数小于（K-1）的事务直接删除，然后由新得到的事务数据D1来产生K-项候选项集CK。　　然后，可以通过新的K-项频繁项集验证（K-1）-项集，包不包含在得到的（K-1）-项频繁项集中[29]。只要有一个未被包含，则该组合就可以删除，这样得到的K-项候选项集就比较完整。　　这种改进的算法减少了数据库中的事务个数和提高了产生频繁项集的效率，节省了时间，这种算法对大型的数据库挖掘尤其适用。　　3关联规则在图书馆的应用　　大学图书馆中的数据一般是按中图分类法来分类的，这种分类法就是将书籍按专业来分类，但是往往不好把握各专业书籍内部之间的一个联系，特别是某些专业性很强的学科。此时图书馆管理员就不知道该怎样摆放这些书籍。针对图书馆所面临的读者的数据量大，专业，年龄，兴趣度等等的差别，而且随着现代通讯技术的迅速发展，经调查发现，很多高校近几年纸质图书的借阅量越来越低。　　4总结　　本文采用关联规则算法，对高职类高校图书管理系统中一些的数据进行分析和研究，找出其中的关联和隐性联系，并结合实际工作，提出一些建议和方案，不但具有重要的理论价值，而且对于图书馆的数字化建设具有较大的指导意义。数据挖掘中的关联规则挖掘是挖掘领域的一个非常重要的研究课题，有着广泛和长远的应用