基于关联规则和协同过滤混合图书算法.docVIP

下载本文档

9
0
约4.15千字
约 9页
2018-08-29 发布于福建
举报
版权申诉

基于关联规则和协同过滤混合图书算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则和协同过滤混合图书算法

基于关联规则和协同过滤混合图书算法　　摘要：文章结合关联规则挖掘和协同过滤算法的特点，根据图书馆的实际情况，提出了混合图书推荐算法。将该算法应用于广大图书管理系统中，有助于提高用户体验。　　关键词：关联规则；协同过滤；图书推荐　　中图分类号：TP391.3 文献标识码：A 　　一、引言　　现如今，应用大数据技术已成为时代的主流，但海量的数据能给我们提供什么呢？答案是信息，而且是有价值的信息，能使我们提高工作效率。以图书馆为例，传统图书馆管理系统中不仅有大量图书信息、用户信息，也有许多借阅者的借阅信息，这就带来一个问题，这么多借阅信息能带来什么好处？通过数据挖掘，我们就能从中很容易发现用户的一些兴趣偏好，并以此为依据，向用户推荐他/她可能感兴趣的书籍。　　二、现状　　推荐系统运用十分广泛，最常见的可能就是电商网站上的推荐系统。国内如阿里旗下的淘宝、天猫等购物网站，同时网易云音乐在推荐系统方面也建树颇丰，往往能向用户推荐可满足其喜好的音乐。在图书推荐领域，国内外专家学者在其作品中也有涉及。如吉林大学李欣弘发表的《基于关联规则和情感分析的图书推?]算法研究》中就介绍了利用关联规则和情感分析算法实现图书推荐，F.Heylighen的“Hebbian algorithms for a digital library recommandation system”等。但是相对其他领域，推荐算法在图书推荐方面的应用还是相对较少的。　　三、关键技术介绍　　1.基于KNN的协同过滤推荐算法　　邻居模型通常又称为KNN模型（K-nearest neighbors），KNN算法的核心思想是：如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。采用 KNN方法进行类别决策时，只与极少量的相邻样本有关。相关性的计算本例中使用的是Pearson相关系数。Pearson相关系数考虑到不同用户的评分尺度问题，将同一个用户对不同的项目评分进行归一化的处理，这样就可消除因由用户个人主观因素而造成的对相似性结果的影响。结合本例Pearson相关系数公式如下：　　sim（i，j）= 　　sim（i，j）表示书本i和j的相似度，Pmn表示对书m、n都评过分的用户集合rm，rn，分别表示书m和n的平均评分，分别表示用户v对书本m、n的评分。　　2.关联规则　　（1）关联分析（Association Analysis）　　用于发现隐藏在大型数据集中的令人感兴趣的联系，所以发现的模式通常为关联规则（Association Rule），或以频繁项集的形式表示。　　Apriori算法是关联规则挖掘中最常用的算法，在介绍Apriori算法之前要首先了解何谓先验原理。先验原理是减少候选集数量的方法之一，其核心思想是：如果一个项集是频繁的，则它的所有子集一定也是频繁的；反之，如果一个项集是非频繁的，那么它的所有超集一定也是非频繁的。Apriori算法正是运用这一性质。算法的主要步骤主要由连接步和剪枝步组成。这里不再描述连接步和剪枝步的具体实施步骤。不过Apriori算法存在一定的缺陷，如会产生庞大的候选集；多次扫描事务数据库时，需要很大的I/O负载。为此Jiawei Han等于2000年提出了不产生候选挖掘频繁项集的方法――频繁模式增长（Frequent-Pattern Growth，FP-Growth）算法。该算法通过把频繁项集的数据库压缩到一棵频繁模式树上，然后将这个压缩后的数据库划分成一组条件数据库并分别挖掘每个条件数据库，实验证明，采用这种方法可以克服改正数据集过大的缺点。　　四、图书推荐的实现　　1.目前图书推荐方面存在的问题　　（1）KNN协同过滤算法相似度计算依赖共同评分的项目，对数据集的大小或者说数据的稀疏程度特别敏感，数据集数量越大，往往推荐的结果越精确，但系统刚上线时，往往数据较少，这时如果使用KNN协同过滤算法计算推荐的书籍时，结果可能不尽如人意。　　（2）新用户的问题。其实和第一个问题类似，主要是新用户可能没有借阅过相应的书籍，或者借阅的数量太少，盲目使用KNN协同过滤推荐算法时并不会产生很好的结果。　　（3）用户口味的变化。比如，某位读者可能以前经常看同一类书籍，例如，读者平常都会借阅一些与计算机相关的书籍，可是有一天该读者突然想看一本小说，就借了一本小说，期间读者可能还想再看其他小说类的书籍。这时运用算法进行推荐时，产生的推荐可能还会是计算机方面的书籍居多，这样的结果就不会准确。　　2.针对以上问题，我们可以将两种算法适