推荐系统--2--协同过滤与矩阵分解.pdfVIP

下载本文档

5
0
约3.1千字
约 4页
2022-10-01 发布于江苏
举报
版权申诉

推荐系统--2--协同过滤与矩阵分解.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

推荐系统--2--协同过滤与矩阵分解协同过滤与矩阵分解这⾥主要介绍⼏个推荐系统的模型。推荐系统模型是最重要的⼀块，因为推荐模型直接决定了最终物品排序的结果，它的好坏也直接影响着推荐效果的优劣。⽽且从某种意义上讲，推荐系统的整体架构都是围绕着推荐模型搭建的，⽤于⽀持推荐模型的上线、训练、评估、服务。这⾥讲解的是最经典的”协同过滤“。协同过滤算法的基本原理我们知道”⽤户⾏为数据是推荐系统最常⽤，也是最关键的数据。⽤户的潜在兴趣、⽤户对物品的评价好坏都反应在⽤户的⾏为历史中“。⽽协同过滤算法，就是⼀种完全依赖⽤户和物品之间⾏为关系的推荐算法，它背后的原理就是”协同⼤家的反馈、评价和意见⼀起对海量的信息进⾏过滤，从中筛选出⽤户可能感兴趣的信息“ 具体来看⼀个电影推荐例⼦：⾸先，可以看到，电商⽹站的商品库⾥⼀共有4件商品：⼀个游戏机、⼀个⼩说、⼀本杂志，以及⼀台电视机。假设现在有⼀名⽤户X访问了这个电商⽹站，电商⽹站的推荐系统需要决定是否推荐电视机给⽤户X。为了进⾏这项预测，推荐系统可以利⽤的数据有⽤户X对其他商品的历史评价数据，以及其他⽤户对这些商品的历史评价数据。上图(b)中⽤绿⾊”点赞“的标志表⽰好评，⽤红⾊”踩“的⽅式表⽰差评。这样⼀来，⽤户、商品和评价记录就构成了带有标识的有向图。接下来为了⽅便计算，我们把有向图转成矩阵的形式，这个矩阵表⽰了物品共同出现的情况，因此被称为”共现矩阵“。其中，⽤户作为矩阵⾏坐标，物品作为列坐标，我们再把”点赞“和”踩“的⽤户⾏为数据转换成矩阵中相应的元素值。这⾥，我们将点赞值设为1，踩的值设为-1，没有数据置为 0,（如果⽤户对物品有具体的评分，那共现矩阵中的元素值可以取具体的评分值，没有数据时默认评分也可以取评分的均值）⽣成共现矩阵之后，推荐问题就转成了预测矩阵中问号元素的问题（图d）。由于协同过滤算法中，推荐的原理是让⽤户考虑与⾃⼰兴趣相似的⽤户的意见，因此我们预测的第⼀步就是找到与⽤户x兴趣最相似的n个⽤户（这⾥的top n⽤户是⼀个超参数），然后综合相似⽤户对”电视机“的评价，得出⽤户X对”电视机“评价的预测。从共现矩阵中我们可以知道，⽤户B和C由于跟⽤户X的⾏向量近似，被选为Topn（n=2)相似⽤户，接着在图e中，我们可以看到，⽤户B 和⽤户C对电视机的评价均为负⾯的，因为相似⽤户对电视机的评价都是负⾯的，所以我们可以预测出⽤户X对电视机的评价也是负⾯的，在实际推荐过程中，推荐系统不会向⽤户X推荐电视机这⼀物品。到这⾥，协同过滤算法流程就结束了。这⾥有2个不严谨的地⽅：1. ⽤户相似度该怎么定义，2. 最后我们预测⽤户X对电视机的评价也是负⾯的，这个负⾯程度应该有⼀个分数来衡量，但是这个推荐分数如何计算呢？计算⽤户相似度因为有共现矩阵，每个⽤户对应的⾏向量其实就可以当作⼀个⽤户的Embedding向量。余弦相似度：最经典的⽅式就是利⽤余弦相似度，衡量⽤户向量i和j之间的夹⾓⼤⼩，夹⾓越⼩，余弦相似度越⼤，两个⽤户越相似。其他⽅法：⽪尔逊相关系数、欧式距离等。⽤户评分的预测在获得topn个相似⽤户后，利⽤Topn⽤户⽣成最终的⽤户u对物品p的评分是⼀个⽐较直接的过程。最常⽤的⽅式是，利⽤⽤户相似度和相似⽤户评价的加权平均值，来获得⽬标⽤户的评价预测： ∑ (w ∗R ) s∈S u,s s,p ∑ wu,s R = s∈S u,p 其中，权重wu,s是⽤户u和⽤户s的相似度，Rs,p是⽤户s对物品p的评分。在获得⽤户u对不同物品的评价预测后，最终的推荐列表根据评价预测得分进⾏排序即可得到，到这⾥，我们完成了协同过滤的全部推荐过程。矩阵分解算法虽然说协同过滤是公认的经典推荐算法，它的缺点也很明显，共现矩阵往往⾮常稀疏，在⽤户历史⾏为很少的情况下，寻找相似⽤户的过程并不准确。于是Netflix对协同过滤算法进⾏了改进，提出了矩阵分解算法，加强了模型处理稀疏矩阵的能⼒。下⾯解释⼀下什么叫矩阵分解，Netflix的矩阵分解论⽂中截图的⽰意图，来⽐较协同过滤和矩阵分解的原理。上图左侧是协同过滤：