- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于协同过滤的推荐算法与代码实现
什么是协同过滤?
协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤?(Collaborative Filtering,?简称?CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。
协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。当然其中有一个核心的问题:
如何确定一个用户是不是和你有相似的品位?
如何将邻居们的喜好组织成一个排序的目录?
简单来说:
1. 和你兴趣合得来的朋友喜欢的,你也很有可能喜欢;
2. 喜欢一件东西A,而另一件东西B?与这件十分相似,就很有可能喜欢B;
3. 大家都比较满意的,人人都追着抢的,我也就很有可能喜欢。
三者均反映在协同过滤的评级(rating)或者群体过滤(social filtering)这种行为特性上。
深入协同过滤的核心
首先,要实现协同过滤,需要一下几个步骤:
1. 收集用户偏好
2. 找到相似的用户或物品
3. 计算推荐
(1)收集用户偏好
要从用户的行为和偏好中发现规律,并基于此给予推荐,如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。用户有很多方式向系统提供自己的偏好信息,而且不同的应用也可能大不相同,下面举例进行介绍:
以上列举的用户行为都是比较通用的,推荐引擎设计人员可以根据自己应用的特点添加特殊的用户行为,并用他们表示用户对物品的喜好。
在一般应用中,我们提取的用户行为一般都多于一种,关于如何组合这些不同的用户行为,基本上有以下两种方式:
将不同的行为分组:一般可以分为“查看”和“购买”等等,然后基于不同的行为,计算不同的用户/物品相似度。类似于当当网或者Amazon?给出的“购买了该图书的人还购买了?...”,“查看了图书的人还查看了?...”
根据不同行为反映用户喜好的程度将它们进行加权,得到用户对于物品的总体喜好。一般来说,显式的用户反馈比隐式的权值大,但比较稀疏,毕竟进行显示反馈的用户是少数;同时相对于“查看”,“购买”行为反映用户喜好的程度更大,但这也因应用而异。
收集了用户行为数据,我们还需要对数据进行一定的预处理,其中最核心的工作就是:减噪和归一化。
减噪:用户行为数据是用户在使用应用过程中产生的,它可能存在大量的噪音和用户的误操作,我们可以通过经典的数据挖掘算法过滤掉行为数据中的噪音,这样可以是我们的分析更加精确。
归一化:如前面讲到的,在计算用户对物品的喜好程度时,可能需要对不同的行为数据进行加权。但可以想象,不同行为的数据取值可能相差很大,比如,用户的查看数据必然比购买数据大的多,如何将各个行为的数据统一在一个相同的取值范围中,从而使得加权求和得到的总体喜好更加精确,就需要我们进行归一化处理。最简单的归一化处理,就是将各类数据除以此类中的最大值,以保证归一化后的数据取值在?[0,1]?范围中。
进行的预处理后,根据不同应用的行为分析方法,可以选择分组或者加权处理,之后我们可以得到一个用户偏好的二维矩阵,一维是用户列表,另一维是物品列表,值是用户对物品的偏好,一般是?[0,1]?或者?[-1, 1]?的浮点数值。
(2)找到相似的用户或物品
当已经对用户行为进行分析得到用户喜好后,我们可以根据用户喜好计算相似用户和物品,然后基于相似用户或者物品进行推荐,这就是最典型的CF?的两个分支:基于用户的CF?和基于物品的CF。这两种方法都需要计算相似度,下面我们先看看最基本的几种计算相似度的方法。
相似度的计算
关于相似度的计算,现有的几种基本方法都是基于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐的场景中,在用户-物品偏好的二维矩阵中。我们可以将一个用户对所有物品的偏好作为一个向量来计算用户的相似度;或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。
下面我们详细介绍几种常用的相似度计算方法:
相似邻居的计算
介绍完相似度的计算方法,下面我们看看如何根据相似度找到用户-?物品的邻居,常用的挑选邻居的原则可以分为两类:下图给出了二维平面空间上点集的示意图。
固定数量的邻居:K-neighborhoods?或者Fix-size neighborhoods
不论邻居的“远近”,只取最近的K?个,作为其邻居。如上图中的A,假设要计算点1?的5-邻居,那么根据点之间的距离,我们取最近的5?个点,分别是点2,点3,点
您可能关注的文档
- 基础知识第四章2精要.doc
- 基础知识模拟试题精要.docx
- 安全通病防治措施精要.doc
- 基金从业基础知识2精要.docx
- 基金从业资格考试大纲精要.docx
- 基金从业资格全国统一考试大纲——基金法律法规、职业道德与业务规范精要.docx
- 基金从业资格易忘内容精要.doc
- 安全文明施工保证措施方案精要.doc
- 安全相关管理制度精要.doc
- 基金定投专题精要.ppt
- 中国国家标准 GB/T 45897.1-2025医用气体压力调节器 第1部分:压力调节器和带有流量计的压力调节器.pdf
- 《GB/T 45897.1-2025医用气体压力调节器 第1部分:压力调节器和带有流量计的压力调节器》.pdf
- 中国国家标准 GB/T 45897.2-2025医用气体压力调节器 第2部分:汇流排压力调节器和管道压力调节器.pdf
- 《GB/T 45897.2-2025医用气体压力调节器 第2部分:汇流排压力调节器和管道压力调节器》.pdf
- GB/T 45897.2-2025医用气体压力调节器 第2部分:汇流排压力调节器和管道压力调节器.pdf
- 《GB/T 45305.2-2025声学 建筑构件隔声的实验室测量 第2部分:空气声隔声测量》.pdf
- 中国国家标准 GB/T 45305.2-2025声学 建筑构件隔声的实验室测量 第2部分:空气声隔声测量.pdf
- GB/T 45305.2-2025声学 建筑构件隔声的实验室测量 第2部分:空气声隔声测量.pdf
- 中国国家标准 GB/T 20833.2-2025旋转电机 绕组绝缘 第2部分:定子绕组绝缘在线局部放电测量.pdf
- GB/T 20833.2-2025旋转电机 绕组绝缘 第2部分:定子绕组绝缘在线局部放电测量.pdf
文档评论(0)