规范化序列模式在读者借阅行为模式挖掘的应用研究.docVIP

下载本文档

0
0
约5.61千字
约 9页
2016-09-25 发布于北京
举报
版权申诉

规范化序列模式在读者借阅行为模式挖掘的应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

规范化序列模式在读者借阅行为模式挖掘的应用研究.doc

规范化序列模式在读者借阅行为模式挖掘的应用研究　　摘要：高校图书管理系统经过多年运行产生了大量借阅数据，为从借阅数据中发现读者借阅图书的行为模式和借阅规律，提出使用PrefixSpan算法对借阅数据进行序列模式挖掘。为平衡序列模式中支持度和长度各自的重要性，将挖掘结果进行规范化处理，得到带有权值的序列模式。通过对带有权值序列模式进行分析，可得到读者借阅图书的前后衔接关系和借阅规律，根据这些借阅规律可对读者进行借阅指导。　　关键词：序列模式； PrefixSpan算法；规范化；借阅规律　　中图分类号：TP274+.2 文献标志码：A 文章编号：1006-8228（2014）04-34-03 　　Abstract： The operation of the college library management system has generated a large amount of borrowing data for so many years. In order to find out the behavior pattern and borrowing rules of readers， the PrefixSpan algorithm is proposed to lead data sequence pattern mining. To keep balance of importance between the support degree and the length in sequence mode， the mining results will be normalized and the sequence patterns will be given with weights. Based on the weighted sequential pattern analysis， the linking relation and the borrowing rules can be obtained， and readers may borrow based on these rules. 　　Key words： sequential patterns； prefixspan algorithm； normalization； borrowing rules 　　0 引言　　数据挖掘又称为数据中知识发现，是从海量数据中获得有趣、有用、隐含在数据背后且可理解的相关知识[1]。数据挖掘中常见方法有关联规则、分类、聚类、序列模式、Web挖掘等，这些技术在图书馆的应用主要集中在关联分析和聚类分析[2]两方面，使用序列模式进行分析的较少。　　目前各高校图书管理系统经过多年运行生成大量借阅数据，通过对这些数据直接分析可得知哪些是热门书籍读者借阅图率、图书利用率等信息，但是要发现借阅数据背后的规律不是直接分析数据能够做到的。同时，图书馆是为读者服务的部门，应该主动掌握读者的借阅习惯、借阅规律和借阅倾向，主动为读者推荐书籍。借助于系统推荐图书分两个方面，一方面是读者借阅某本图书时主动为其推荐相关书籍并给出借阅图书的先后顺序；另一方面是在读者根本不清楚自己要阅读什么书时，应根据读者专业主动推荐相关专业图书的借阅顺序。同时还要解决以往系统关联规则仅能发现同时被某些读者借阅过的图书而无法给出借阅图书的先后顺序问题。因此本文提出使用PrefixSpan算法挖掘序列模式，使用[0，1]区间规范化处理挖掘到的序列模式。　　1 PrefixSpan算法　　PrefixSpan算法[3]在挖掘序列模式时不需要产生候选项集，挖掘速度较快。算法的基本思想是，找出频繁1序列后产生投影数据库，根据前缀挖掘投影数据库得到局部频繁项集，将前缀与局部频繁项集结合得到频繁序列，具体挖掘步骤如下。　　Step1：扫描序列数据库S，找出满足最小支持度的频繁1-项集，即得到长度为1的序列模式。　　Step2：将长度为1的序列模式作为前缀构造投影数据库。　　Step3：对每个前缀扫描所属的投影数据库，根据最小支持度得到相关局部频繁项集，将前缀和局部频繁项集结合得到频繁序列。　　Step4：继续将得到的频繁序列作为前缀，挖掘该前缀的投影数据库得到局部频繁项集，结合得到频繁序列。重复该步骤直至不能发现更长的频繁序列，算法停止。　　2 序列模式规范化处理　　如何有效使用挖掘出来的序列模式成为序列模式应用的关键。目前大部分使用的方法是按长度降序排列，长度越长的越有用；也有按支持度降序排列，支持度越高的序列模式越有用。这两种方法各有利弊，第1种方法序列模式支持度不够大而不具有非常的普遍性，第2种方