基于关联规则的个性化图书推荐研究.docxVIP

下载本文档

59
0
约3.86千字
约 6页
2017-08-14 发布于重庆
举报
版权申诉

基于关联规则的个性化图书推荐研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则的个性化图书推荐研究

论文报告（2013/ 2014学年第二学期）课程名称数据挖掘与知识库系统论文名称基于关联规则的个性化图书推荐研究学生院系计算机学院学生姓名沈林翔学生学号1213042928基于关联规则的个性化图书推荐研究摘要：本文首先对某高校图书馆数据进行分析，然后以图书馆的历史借阅记录为具体挖掘对象，运用关联规则的数据挖掘方法，从图书馆的借阅历史数据中挖掘出了两类关联规则：相关书籍和相似读者，并根据这两类规则实现相关的图书推荐服务。关键词：数据挖掘关联规则图书馆个性化图书推荐图书馆拥有着数量庞大的、系统有序的信息资源、相对稳定的读者群，这使得图书馆在开展读者个性化服务时比一般的商业网站都更加具有优势。并且，图书馆还积累了大量读者利用馆藏资源的历史数据，这些信息正是读者借阅兴趣的最真实表现。本文采用关联规则挖掘技术从图书馆的读者借阅历史数据中挖掘出读者的图书借阅规律，并根据这些规律实现图书馆个性化的、主动式的图书推荐服务。1 关联规则在图书馆个性化图书推荐中的应用关联规则的挖掘是数据挖掘的重要方法之一，常用于发现事务数据库中潜藏的重要规律，这些规律反映了读者的行为模式，是目前个性化信息服务研究中进行读者分析的常用方法之一。本文研究利用关联规则挖掘的方法，对图书馆数据库中读者的借阅记录进行分析，从中挖出 2 类关联规则。一类是相关书籍，利用关联规则分析读者借阅历史数据，了解书籍之间潜藏的规律，如“某几种书会经常被同一位读者借阅”或“读者借阅了某种书后经常会再借阅另外某种书”，从而发现具有一定借阅规律的“同类书籍”或“相关书籍”，从而向借阅过某种图书的读者推荐该书的相关书籍；另一类是相似读者，通对读者借阅数据的关联规则挖掘，发现借阅习惯相似的读者，如：“某些读者经常借阅相同的书”，于是便推测他们的借阅兴趣相似，即“相似读者”，于是就根据相关规则，在这群读者之间实现相互推荐，实现信息的共享。2 相关算法的研究本文挖掘实例中主要用到两种算法：聚类算法和关联算法。聚类分析算法取决于数据的类型、聚类的目的和应用，这里采用K-Means算法。关联算法就是通过分析，找出给定项目组与事务记录集合中项目之间未知的依赖关系，采用Apriori算法。2.1K-Means算法K-Means算法比较简单，其一开始以选择K个初始质心，其中K是用户指定参数，即所期望的簇的个数。每个点指派到最近的质心，而指派到一个质心的点集为一个簇，再根据指派到簇的点，更新每个簇的质心。重复指派和更新步骤，直到质心不发现变化。当K-Means算法结果簇是密集的，且簇与簇之间具有明显的区别时，它的效果就比较好。在面对大规模数据集，其具有相对可扩展性，并且具有较高的效率。2.2 Apriori算法Apriori算法是个布尔、单维、单层关联规则，算法的核心思想是采用一种逐层方法来产生关联规则，其中每层对应于规则后件中的项数。初始，提取规则后件只含一个项的所有高置信度规则，然后，使用这些规则来产生新的候选规则。例如，如果{ACD}-{B}和{ABD}-{C}是两个高置信度的规则，则通过合并这两个规则的后件产生候选规则{AD}-{BC} 。3基于关联规则的个性化图书推荐的实现关联规则挖掘的过程，主要包括 2 项工作：数据源的预处理和关联规则的挖掘。在此袁以图书馆读者借阅历史数据中的一小段数据作为关联规则挖掘的对象，主要以挖掘“相关图书”为例，分析关联规则挖掘的整个实现过程，了解其挖掘的原理。3.1数据源的预处理在图书馆自动化系统中，有关读者的信息、书籍的信息以及读者的借阅信息等数据，通常都以数据表的形式，存放在专门的数据库中，根据事先制定的规则要求，在处理过程中，主要需要的数据是每一位读者的借阅事务数据。在读者的借阅信息表中，每条记录均包括记录号、读者注册号、图书标示号、借阅时间等诸多数据，因此，要对数据进行处理，提出关联分析所需要的数据。对于读者，选择用其读者注册号来标示，因为该字段能一对一的标示每一个读者；而对于图书，考虑到复本的存在，所以选择其索取号，因为该字段能一对一地标示每一种书，而不是每一本书。本文通过从某高校图书馆的几万条借阅记录作为数据样本，其中截取了一小部分作为分析的数据对象，就可以对表1中读者的借阅数据进行预处理。根据借阅数据表中每个读者借阅过的所有书籍的历史数据。创建每个读者的事务记录，构建出事务数据表（见表2）。3.2 关联规则挖掘将数据源整理好后，即可进行基于关联规则的个性化推荐的最关键的一个步骤——关联规则的挖掘。关联规则的挖掘工作也分为2步：频繁项集的挖掘和关联规则的产生。频繁项集的挖掘。就是要从食物数据表中，发现满足最小支持度的频繁项集。首先，假设最小支持度和最小置信度均为50%；然后，对事务数据表（见表2）中的数据进行扫描，产后候选1_项集，再次扫描事务数