基于关联规则图书馆书目序列模式挖掘.docVIP

下载本文档

6
0
约3.38千字
约 8页
2018-08-29 发布于福建
举报
版权申诉

基于关联规则图书馆书目序列模式挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则图书馆书目序列模式挖掘

基于关联规则图书馆书目序列模式挖掘　　摘要：基于关联规则的序列模式挖掘在图书馆的数据分析中应用非常广泛。该文针对管理学院三个不同专业学生借阅书目的序列挖掘得出，该专业书目借阅之间的关联关系及序列模式。所得结论能很好的应用于图书馆的管理服务及学生学习过程的指导。　　关键词：数据挖掘；关联规则；序列模式　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）10-0083-03 　　随着信息技术的不断进步，各行各业都聚集有大量的运行数据。如何有效利用和挖掘这些大数据潜在的价值和内涵，是我们现在急需解决的问题。作为高校运营管理的重要组成部分，图书馆也因每日的读者借阅行为产生了大量的日志文件和数据。有效挖掘这些数据可以为图书馆的图书布局，新书购买和读者服务提供有价值的参考意见。数据挖掘技术即是从大量、不完全、有噪声、模糊的数据中，提取或挖掘出未知的，有价值的模式或规律等知识的复杂过程[1]。关联规则是数据挖掘技术中的描述型任务之一，主要应用于市场营销，事物分析等领域。而序列模式挖掘是关联规则的有效应用之一。它能更好地挖掘出图书馆学生借阅书目之间存在的某种序列及先到后续的关系。　　1 序列模式挖掘　　序列模式挖掘最早是针对购物篮数据的关联分析，目的是发现事物之间项与项的序列关系。序列是指两个或多个数据项先后出现的统计规律性，相对于关联，序列中的项有时间先后[2]。它最早由Agrawal等人提出。序列模式的发现可使用枚举的方式统计支持度计数而得到。但是手工计算方式费时费力。在序列模式中Apriori算法是通常采用的方法之一。该算法通常分为五步，分别为：排序阶段，频繁项集阶段，转换阶段，序列阶段，最大化阶段[3]。　　2 图书馆数据的序列模式挖掘　　图书馆在每日的运行中产生了大量的读者借阅书目数据，因此基于序列模式的读者借阅行为识别过程主要包括提取借阅事务集，序列模式挖掘和读者行为分析三个阶段[4]。本文的挖掘对象为广东外语外贸大学南国商学院管理学院学生借阅书目，分别挖掘财务管理、旅游管理和市场营销3个专业的借阅数据。查看图书分类书目的编号，我们发现在该系学生的专业课借阅书目均为F开头的书目。因此，我们的目标是挖掘在时间方面上各专业以F开头的书目之间潜在的关联。　　2.1对挖掘数据的处理　　2.1.1数据集合　　通过图书馆拷贝数据中我们导出数据库的图书信息表，读者信息表，半年借书信息表，应用数据库SQL将三个表相连，选择各自专业的读者借阅记录，最后导出得到五个专业各自读者借阅记录表，如图所示。　　2.1.2数据排序　　以学号（即SNO）为主，日期（即DATE）为次对“同专业读者借阅记录表”进行排序。　　2.1.3添加属性　　由于图书的名称繁多而实际它们的内容十分近似，我们将书目名（即TITLE）按照其书目内容和类型泛化为书目的一个小类，并且将其做为一个新属性“CLASSIFI”添加到“同专业读者借阅记录表”。　　2.1.4转换表　　根据时间将新“同专业读者借阅记录表”转化为序列形式的表。亦即为对于同一个读者，根据时间推移其所有的借阅记录合成为一条记录；同时将时间（即DATE）和书目名（即TITLE）删除。　　3序列模式挖掘过程　　3.1基于财务管理专业书目的序列模式挖掘　　财务管理专业有170条借阅课内书目记录，51位读者，即有51项事务。挖掘过程如下：　　3.1.1找出频繁项集　　设置支持度阈值为3%。最小事务支持度计数为2（由51*3%=1.53所得）。　　3.1.2找出序列模式　　频繁1序列L1={6 　　}。利用频繁1-序列生成候选2-序列C2。扫描数据库并对候选2序列计数，得到频繁2序列为L2={ 　　}。频繁2-序列连接后得到候选3序列C3={ 　　{2}{5}{12}} 　　由于候选3-序列中没有支持度计数大于阈值的，亦就是没有新的序列模式出现，因此频繁2-序列为我们最后得到的序列模式。将频繁序列转换成真实的序列模式。我们得出五个结论。结论一，当该专业的读者先借“基础会计（理论知识）”这类书后，一段时间后很有可能会借“综合会计（理论加实践）”类书或者“企业会计”类书；结论二，当该专业读者先借“财务管理”类书后，一段时间后很有可能会借“财务趣味”类书或者“财经趣味”类书；结论三，当该专业读者先借“综合会计（理论加实践）”类书后，一段时间后很有可能会借“出纳”类书；结论四，当该专业读者先借“会计准则”类书后，一段时间后很有可能会借“综合会计（理论加实践）”类书或者“高级会计”类书；结论五，当该专业读者先借“企业会计准则”类书后，一段时间后很有可能会借“综合会计（理论加实践）”类书。　　3.2基于旅