关联规则分析在国内图书馆学领域应用研究.docVIP

下载本文档

3
0
约5.72千字
约 12页
2018-06-16 发布于福建
举报
版权申诉

关联规则分析在国内图书馆学领域应用研究.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关联规则分析在国内图书馆学领域应用研究

关联规则分析在国内图书馆学领域应用研究　　摘要：关联规则分析是当前数据挖掘研究的重要模式之一，可以定量地处理图书馆学领域中各类优化问题。本文在简要介绍关联规则分析的基础上，从流通信息、个性化推送、文献计量、信息检索等方面总结了关联规则分析法在国内图书馆学领域的应用。　　关键词：关联规则分析数据挖掘数字图书馆　　近年来，数据挖掘（data mining，也称知识发现（knowledge discovery in databases，简称KDD），受到当今图书情报领域的广泛重视，其主要目的就是设计算法，用于从海量数据中发现未知的、潜在的、读者感兴趣的有用信息。关联规则是数据挖掘研究中的一个重要的研究课题。　　1.关联分析规则基本原理　　Agrawal等人（1993年）[1]最先发现了顾客交易数据库中的项集间存在关联规则，其核心方法是基于频集理论的递推方法，它侧重于确定数据中不同属性域之间的联系找出频繁的数据属性域之间的相互关系。定义为：　　、　　此后人们对关联规则的挖掘问题进行了大量研究，包括对Apriori算法优化[2]、多层次关联规则算法[3]、多值属性关联规则算法[4]等，以提高算法挖掘规则的效率。　　关联规则的挖掘一般可分成两个子问题：①找出所有支持度≥最小支持度阈值的频繁项集。②由频繁模式生成满足可信度阈值的关联规则。第二个问题比较容易，它在第一步的基础上很容易实现，因此关联规则挖掘算法的性能主要由第一个问题决定。因为这个问题的挑战性在于数据量巨大，所以算法的效率是关键。　　2.关联规则分析在国内图书馆学领域的应用　　关联规则分析经过十几年的发展，目前已经在各个领域广泛应用。从国内已有的研究成果来看，国内图书情报界越来越重视关联规则分析在图情领域各类优化问题的定量应用，并针对不同主题进行了一系列的探讨和研究，涉及的主题主要包括关联规则分析在流通信息、个性化推送、文献计量、信息检索、知识管理等方面的应用。　　2.1在流通信息统计中的应用　　在读者日常借阅记录事务中，每天都有大量的借还记录汇入数据库中。读者借阅的对象是文献资源，根据长期的读者借阅历史数据，我们会发???读者对文献的借阅存在着一定的关联，不同学科之间也存在着关联，以及不同的读者对文献的借阅存在着一定的模式。挖掘出这些数据之间的关联，有利于合理配置资源和提高资源的利用率，以提高图书馆的服务水平。图书流通量是反映图书利用率的最重要的技术指标，更是反映图书馆服务质量的重要因素。影响图书流通量的因素是纷繁复杂的，这些因素不仅包括馆藏图书种类和数量的多少、借阅方式的差异、读者群体的大小、借阅权限的区分，而且包括由于读者个体间的差异和不同性别、年龄、不同专业及知识层次的读者对读物产生的不同需求。显然，在上述复杂而又相关的各因素中，既有大量已知信息，又有不少未知信息、非确知信息。图书流通系统的这种既含有已知信息，又含有未知的、非确知的信息，实际上是一种灰色系统[5]。关联规则的挖掘可以发现图书馆流通数据库中一组借阅书籍之间某种关联关系的规则，其作用在于对图书流通的关联性分析和相关借阅图书的推荐。这样可以优化图书馆馆藏结构、馆内书籍分布，不仅可以帮助师生的学习教研工作，甚至可以发掘不同学科间的隐藏联系[6]。　　珵继华[7]等认为多维数据空间数据的稀疏性，在低层或原始层的数据项之间很难找出强关联规则。在较高的概念层发现强关联规则很可能提供普遍意义的知识。而多层关联规则挖掘是直接面向海量数据库系统的，这类数据库通常有上百个属性和数百万个记录，并且数据表之间包含复杂的关系，这就必然导致数据挖掘过程中搜索维数和搜索空间的激增，利用高性能分布式计算机设计分布式多层关联规则算法来进行高效的分布式挖掘已经成为当前数据挖掘的一个迫切需要解决的问题。　　聂珍[8]在分析单数据库多层关联规则算法SMAM的基础上提出了分布式多层关联规则挖掘算法PMAM，使得其具有较高的分布式特点。在PMAM算法中利用全局频繁与局部频繁之间的关系减少候选集，并利用概念间的层次关系及项集长度的分布规律对事务表进行约减。这样可使算法的效率得到提高，改善了内存的使用率。　　2.2在个性化推送中的应用　　未来图书馆的发展趋势是数字化的，然而目前，国内图书馆技术与应用基础薄弱，起步较晚，网络个性化服务发展更是滞后，其应用仍处于初始探索阶段。鉴于数据挖掘技术在数据的组织、分析与发现等方面存在巨大的潜力，学术界普遍认为它可为数字图书馆的个性化服务提供关键技术。　　图书推荐服务是图书馆个性化服务的一种，在图书馆巨大的馆藏资源中，每个读者感兴趣的只能是其中的一小部分，如何高效率地找出对读者有用的书目是图书馆学要研究的问题[9]。数字图书馆个性化服务是基于用户的行为、习惯、偏好、特点及特