基于借阅时间评分协同图书推荐模型与应用.docVIP

下载本文档

6
0
约4.91千字
约 10页
2018-05-27 发布于福建
举报
版权申诉

基于借阅时间评分协同图书推荐模型与应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于借阅时间评分协同图书推荐模型与应用

基于借阅时间评分协同图书推荐模型与应用　　[摘要]针对数字图书馆系统中的读者借阅历史数据，提出利用图书借阅时间计算读者兴趣度的评分数据模型。该模型把读者的借阅行为分为4种不同的类型：续借、超期借阅(长期超借与短期超借)、正常借阅、盲目借阅，设置阈值，分别计算其相对借阅时间，得出读者对图书的兴趣度。在该数据模型的基础上，实现一个基于协同过滤技术的图书推荐系统，验证模型的有效性。　　[关键词]协同过滤数据挖掘图书推荐用户兴趣度　　[分类号]G250.7 　　引言　　推荐系统(recommender system)作为一种信息过滤的重要手段，是当前解决信息超载(information over-load)问题的非常有潜力的方法。推荐系统通过主导用户的浏览顺序，引导用户发现需要的结果，从而对系统产生依赖感。目前，几乎所有的大型电子商务系统，如Amazon、eBay等，都不同程度地使用了各种形式的推荐系统，推荐的内容也多种多样，如电影、音乐、新闻、网页等。　　数字图书馆也积极应用推荐技术提升用户体验，如ACS、Google数字图书馆、斯坦福大学数字图书馆、中国因网、NSTL等，都实现了相关文献的推荐功能。英国谢菲尔德大学也积极致力于图书馆推荐系统的实践研究，与OCLC合作，准备开发基于用户需求和兴趣爱好的图书目录推荐系统，并且已得到英国艺术与人文研究所的资助。　　　　目前常用的主流推荐技术包括：基于关联规则的推荐、基于内容的推荐、协同过滤的推荐以及混合推荐，而尤以协同过滤的推荐技术应用得最为广泛。丰富的资源和用户使用数据是良好推荐系统的前提。推荐系统可利用的资源和用户使用数据越多，推荐效果就越好。然而，实践证明，用户往往并不乐意付出额外时间对项目进行评分，从而造成评分矩阵过于稀疏，推荐效果不佳。这就是协同推荐系统中经常遇到的稀疏性问题。本文针对数字图书馆中的图书借阅数据特点，提出一种利用借阅时间建立读者兴趣度模型，实现基于协同过滤的图书推荐系统的方法。由于借阅数据易于获取，数据量大，一定程度上可以改善由于用户评分不积极造成的评分矩阵稀疏性问题。　　2协同过滤推荐　　2.1协同过滤推荐概述　　协同过滤推荐(collaborative filtering，CF)，又叫社会化推荐，由Goldberg等在1992年首先提出，并应用于研究型邮件推荐系统Tapestry中。其核心思想是：用户的兴趣偏好是可以通过对具有类似行为或偏好的用户群进行分析和预测得到的，强调人与人之间的协作，利用了最近邻的预测技术，搜索与当前用户的兴趣偏好相似性高的邻居用户群，并加权考虑邻居用户的偏好值来预测当前用户可能感兴趣的项目。　　协同过滤推荐技术中，最常用的是基于用户的协同推荐(user-based CF)。其实现过程主要有构建用户评分数据模型、寻找最近邻居、产生推荐结果。　　建立用户评分数据模型实质上是对用户感兴趣的项目进行建模，形成用户对项目的评分矩阵，作为协同过滤算法的数据输入。评分数据模型通常是一个m×n的矩阵(m为用户总数，n为项目总数)，每一项矩阵元素代表用户对项目的历史评分值，没有用户评分的通常用零代替。　　经典的协同过滤算法是通过查找最近邻作为预测的依据，即在评分矩阵上搜索与当前用户兴趣偏好最相似的K个最近邻集合，并利用每个用户的评分向量进行相似度计算。相似度一般采用Pearson相关系数式、余弦相关式Cosine或者修正的余弦相关式等。　　推荐结果的生成，是根据当前用户的K个最近邻对目标项目的评分信息来预测当前用户的评分，并选择预测评分最高的N个项目推荐给用户，即Top-N推荐。　　2.2协同过滤推荐的优缺点　　协同过滤技术与传统的推荐技术相比有一些独特的优势。协同过滤不仅能够过滤掉机器难以自动进行内容分析的信息，还可以共享他人的经验，为用户发现新兴趣，实现兴趣的跳跃式推荐。另外，协同过滤技术产生的推荐个性化、自动化程度也比传统的推荐技术要高，可以解决基于内容的推荐技术对项目的局限性问题，对推荐的对象没有特殊的要求，能够处理非结构化的复杂对象，如音乐、电影等，因而具有一定的新颖性。正是由于这些特点，协同过滤推荐技术在电子商务领域也应用得最为广泛和成功。　　虽然有着众多的优点，但是由于需要利用用户对项目的评价数据，协同过滤技术仍然有很多问题需要解决，比较典型的问题有稀疏性问题、冷启动问题等。　　3基于借阅时间评分的读者兴趣度模型　　3.1假设条件　　所谓读者兴趣度，就是读者对一本图书感兴趣的程度。图书馆数据库系统积累了大量的用户利用馆藏资源的历史记录，这些数据是用户兴趣、偏好的最真实体现，通常包括读者证件号、图书MARC号、借阅时间、归还时间、续借次数、图书类别等信息。