基于借阅信息图书个性化推荐算法探究.docVIP

下载本文档

9
0
约5.23千字
约 10页
2017-06-21 发布于福建
举报
版权申诉

基于借阅信息图书个性化推荐算法探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于借阅信息图书个性化推荐算法探究

基于借阅信息图书个性化推荐算法探究　　摘要：随着出版行业日益发展，高校图书馆图书同样日益增多，然而高校图书馆目前存在个性化图书推荐不精确甚至没有个性化图书推荐的现象。本文通过我校图书馆近十年的借阅记录，提出一种新的个性化图书推荐方案，考虑读者的借阅特征以及时间相关因素，最终提高推荐精确度。该方案的核心主要分为两个部分，首先利用基于用户的协同过滤算法对推荐结果进行粗召回。第二步利用特征提取算法对借阅记录进行特征提取，除了用户的基本特征，例如年级、专业、性别等信息之外，还包括了读者借阅图书的类别、借阅时间点、借阅时长、借阅次数、近一段时间借阅了哪些书等特征维度。根据提取的特征对数据进行训练，确定用户的偏好模型，从而预测读者对图书的评分，根据评分排序进行精确推荐关键词：图书推荐；借阅特征；协同过滤；特征提取中图分类号：G250.71 文献标识码：A 文章编号：1007-9416（2017）03-0156-03 1 引言目前高校图书馆的馆藏资源通常成千上万，而且种类繁多，因此读者会花费大量的时间用于寻找自己感兴趣的图书。而随着图书行业的繁荣，书目与种类日益增多。传统的搜索引擎已经不能完全的满足读者对图书的辨识。因此，针对这种信息获取的困难，出现了许多针对于个性化图书推荐系统的相关研究目前高校图书馆的推荐系统存在以下一些问题。第一，推荐系统不够个性化，一些高校的图书推荐模块仅仅是依靠于借阅量以及根据借阅记录基于图书本身的内容进行推荐。第二，许多个性化图书推荐系统虽然采用协同过滤的技术，实现了个性化，但是协同过滤算法本身依赖于用户对项目的评分，而大部分高校图书馆的借阅记录中都没有读者对图书的评分这一项。第三，由于数据稀疏性的原因，导致一些没有借阅过的或被借阅次数很少的图书无法被有效的推荐给其他人如之前所说，协同过滤依赖于用户对物品的评分，而对于高校图书馆，如何根据读者的借阅记录将其特征转化为对图书的评分，从而提高推荐的准确性。是本文研究的重点。同时，本文也将根据借阅记录提取与时间相关的特征，考虑时间因素，例如图书借阅的先后顺序，或者在某些大型综合考试如英语四、六级考试前为读者推荐相关的图书本文的核心步骤主要分为两大类：（1）利用基于用户的协同过滤算法对推荐结果进行粗召回（2）利用特征提取算法对用户及借阅记录进行特征提取，构建读者偏好模型本文第2节介绍了个性化推荐方法的研究工作，第3节详细阐述本文提出方案的具体原理；第4节是关于本文提出的推荐方案在真实数据集上的实验分析与讨论；最后第5节给出结论和未来的工作 2 方案原理该方案主要分为两个部分，第一部分利用基于协同过滤算法对借阅记录进行推荐，得出一个粗召回的结果集。第二部分利用特征提取算法对借阅记录进行特征提取，将提取的特征以向量的形式作为读者偏好模型的维度，训练读者的偏好模型 2.1 推荐算法比较推荐算法比较，当前，个性化推荐方法通常采用三类核心推荐算法[1]：（1）基于关联规则的推荐算法（Association Rule-based Rcommendation）；（2）基于内容的推荐算法（Content-based Rcommendation）；（3）基于协同过滤的推荐算法（Collaborative Filtering Rcommendation）下面?U述三类推荐算法的原理以及优缺点基于关联规则的推荐算法是以关联规则为基础，研究的核心问题即项目集A与其他项目集的关联关系。直观的意义就是对图书A偏好的读者又借阅了图书B和C，那么可以说B与C和A存在关联关系。比如借阅了大数据相关图书的读者一般还会借阅hadoop相关的图书。基于关联规则的推荐算法优点在于算法的复杂程度，因此可以深度挖掘读者的兴趣偏好，提高推荐精准度。缺点在于算法实现较为复杂，如何在成百上千万的项目中计算每个项目之间的关联规则是算法的核心和难点，因此生成个性化推荐结果较为耗时基于内容的推荐算法，是以产生关系的项目为中心，提取项目的特征，寻找与该项目相似的其他项目推荐给用户，例如读者借阅了朱自清的散文集，可能也会对冰心的散文感兴趣。基于内容的推荐算法在图书推荐方面优点在于，不存在冷启动问题，即对新书以及新读者都比较容易产生推荐，缺点在于不够个性化，不能挖掘出读者深度的兴趣偏好基于协同过滤的推荐算法是当前个性化推荐领域中最流行的推荐算法。它包括两大类，一是基于用户的协同过滤，二是基于项目的协同过滤[2]。以基于用户的协同过滤为例，它的原理就是利用用户与项目之间的评分计算目标用户与每个用户的相似度，根据相似度的排序选定最近邻用户[3]，将近邻用户中所产生关系的项目中选取目标用户没有产生关系的项目作为推荐项目推荐给目标用户