基于个性化图书推荐的协同过滤算法.docVIP

下载本文档

11
0
约2.48千字
约 5页
2017-08-24 发布于北京
举报
版权申诉

基于个性化图书推荐的协同过滤算法.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于个性化图书推荐的协同过滤算法　　摘要本文对基于个性化图书推荐的协同过滤算法的设计方案进行实验，目的是为证实在真实用户的多标准评估过程中怎样产生数据集，从而找到一种科学的算法。并通过图书推荐的应用案例来说明算法，以验证其是否有效。　　【关键词】个性化图书推荐协同过滤算法邻居选择　　面对巨大的网络数据库，个性化推荐可以及时的追踪用户需求而针对性的优化信息服务的内容与手段，其能帮用户有效处理过载的信息。如今推荐系统已发展成能够产生个性化推荐亦或是引导用户通过个性化的形式到很大的空间中去选择自己的目标商品。本文为研究基于个性化图书推荐的协同过滤算法，通过模拟实验分析多标准推荐系统若干设计方案的有效性。　　1 多标准协同过滤　　所谓推荐系统就是帮客户找到其感兴趣或符合其需求的信息的手段，它主要是两个方面，一是预测某特定用户是不是喜欢某一特定项目，二是识别某个用户所感兴趣的项目。推荐问题可以作下述定义：c是全部用户的集合，s是所推荐的全部可能的项目，uc（s）是一功效函数uc（s）：c×s→R+，用来评价将项目s推荐给用户c是否适宜。假设该函数对整个c×s空间未知，仅在其部分子集中已知，需各用户c∈C可以预测S中项目s的功效函数uc（s），在S中，uc（s）未知，也就是∨c∈C，s=maxuc（s）。在大部分推荐系统内，函数uc（s）一般都只考虑项目的某一属性。　　协同推荐是在某一用户被推荐以往与其有同样兴趣爱好的人感兴趣的项目，而协同过滤是基于有类似爱好的其他人的推荐去预测客户对新项目的兴趣。单属性协同过滤把问题空间定义成“用户-项目矩阵-评分矩阵”。而协同过滤的目标即为基于以往其他用户对此项目的评价，针对某一特定用户，预测其功效。　　2 SVD因式分解以实现协同过滤　　在设计实现推荐系统，选择推荐算法时，大多考虑协同过滤的使用，但是CF中经常使用的两种方法包括：neighbor-based方法和因式分解。作为一个搜索推荐系统，百度关键词系统中也使用了CF为用户推荐流量，考虑到可解释性。但因式分解会从全局考虑用户投票的影响，所以理论和实践上效果都会更好。　　2.1 根据优先权的相似性算法　　该算法与活动用户的属性wai（i=1，…，n）相比较看有类似的优先权。即推荐基于用户的意见，当选择某一项目时，分配类似的权重给每一评估标准。相似性计算就是测量用户a和用户c之间的属性矢量距离。相似性计算有以下2种。　　（1）欧氏距离计算：　　（2）余弦相似性：　　邻居的形成通过2种手段，即相关权重阈值以及最大邻居数。为准确预测，并结合评分有3种办法。　　（1）简单数学均值：　　（2）加权平均值：　　（3）均值离差：　　2.2 SVD在推荐系统中的应用与实现　　其中n表示用户数目，m表示物品数目，I[i][j]是用来表示用户i有没有对物品j评过分，因为我们只需要评过分的那些越接近越好，没评过的就不需要考虑，Vij表示训练数据中给出的评分，也就是实际评分，p（Ui，Mj）表示我们对用户i对物品j的评分的预测，结果根据两向量点乘得到，两面的两项主要是?榱朔乐构?拟合，之所以都加了系数1/2是为了等会求导方便。　　具体公式为：　　3 实验设计分析　　针对此实验，考虑具有一定相似性计算的3个方案，即欧氏距离、余弦相似性以及皮尔逊相关。尚未考虑部分特定的方法针对特性加权，将该因素设置成1，邻居的形成应用到2个方法，也就是相关加权阈值以及最大近邻，最终结合评分设计3个方案。文章的目的是建设数字图书馆，宗旨是帮助用户寻找其所感兴趣的图书。用户经过注册后能够登录该系统，登录后需应用有关的评价标准。模拟系统用于形成一组200用户，200项目以及750评价的集合，这当中600评价用作该算法的训练集，其余150评价用作测试集。以上评价在模拟里进行处理时，会以80%→20%的比例分配至训练集以及测试集中。对实验的分析时，应用2个性能评价办法。第一是准确度，第二是覆盖率，与其他算法对比，本文的算法在MAE指标上比以前的算法提高9.8%，时间复杂度降低19.7%，有效提高了图书推荐的准确率。　　4 结语　　文章用一组合成的数据集合，指出对个性化图书推进这个特定的应用，以及2种协同过滤算法的设计实验方案。此合成数据集合的多标准评估用某一合适的模拟产生，基于如此的数据集合的实验测试仅可用于初始评估，一旦能够得到真实用户的评估，就要重复进行实验。接下来的研究应是探索具有适应性的推荐系统，如此系统会动态的选择适宜的推荐算法抑或是按照评估数据集合的特性变化。　　参考文献　　[1]张迎峰.面向数字图书馆的个性化推荐算法研究[D].合肥：中国科学技术大学，2011. 　　[2]安德智