- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
个人总结:推荐算法篇(附协同过滤等)综述
现代推荐系统
对于在线部分来说,一般要经历几个阶段。首先通过召回环节,
将给用户推荐的物品降到千以下规模(因为在具备一定规模的公司里,
是百万到千万级别,甚至上亿。所以对于每一个用户,如果对于千万
级别物品都使用先进的模型挨个进行排序打分,明显速度上是算不过
来的,资-源投入考虑这么做也不划算);如果召回阶段返回的物品还
是太多,可以加入粗排阶段,这个阶段是可选的,粗排可以通过一些
简单排序模型进一步减少往后续环节传递的物品;再往后是精排阶段,
这里可以使用复杂的模型来对少量物品精准排序(打分),排序阶段
核心目标是要精准,因为它处理的物品数据量小,所以可以采用尽可
能多的特征,使用比较复杂的模型,一切以精准为目标。对某个用户
来说,即使精排推荐结果出来了,一般并不会直接展示给用户,可能
还要上一些业务策略,比如去已读,推荐多样化,加入广告等各种业
务策略。之后形成最终推荐结果,将结果展示给用户。
对于近线部分来说,主要目的是实时收集用户行为反馈,并选择
训练实例,实时抽取拼接特征,并近乎实时地更新在线推荐模型。这
样做的好处是用户的最新兴趣能够近乎实时地体现到推荐结果里。
对于离线部分而言,通过对线上用户点击日志的存储和清理,整
理离线训练数据,并周期性地更新推荐模型。对于超大规模数据和机
器学习模型来说,往往需要高效地分布式机器学习平台来对离线训练
进行支持。
方法概述
(1)基于内容的推荐:根据物品内容(文本信息、属性信息、分
类信息等),基于用户以往的喜欢记录,对用户的兴趣爱好进行建模
(即用户画像,userprofile),以及表达物品的特征(即物品画像,
itemprofile)。然后在物品集合中计算物品画像与用户画像的相似
度,选择最相近的N个物品(Top-N)推荐给用户。
基于内容的方法通常会抽取推荐物品的信息进行描述,常用的方
法是加权关键词向量,用户画像和物品特征可以表示为。抽取的关键
词作为推荐对象的特征,权重可以用TF-IDF、熵、信息增益和互信
息等进行计算。例如在新闻等文本相关推荐领域,就可以先进行分词,
然后利用TF-IDF计算权重,抽取关键词形成特征,建立加权关键字
向量。对于用户画像,则可以使用户所有交互过的物品的加权关键字
向量进行加权平均来表示。
不需要用户的评分数据
没有数据稀疏问题
在文本相关的推荐领域有成熟的信息检索技术和分类技术支
持
不存在物品冷启动问题。“冷启动”指的是,某些模型需要基
于历史数据进行推荐,而没有历史数据,就可以理解为“冷启动”。
推荐结果稳定单一,难以出现令用户惊讶的推荐结果
在多媒体领域如音乐视频图片等,难以根据物品的内容信息进
行特征抽取
需要基于用户历史数据来做推荐,对于新用户会有“冷启动”
的问题
(2)基于人口统计信息的推荐:简单根据用户基本信息来发现用
户的相关程度,然后推荐,比较简单也比较少用。
比如系统对每个用户有个资料建模,然后根据用户的资料计算互
相之间的相似度,比如图中认为A和C相似,推荐系统中称他们为“邻
居”。基于这种相似用户,将用户A喜欢的物品A推荐给用户C。
不依赖物品数据,在不同领域的物品都可以使用。
由于不依赖历史数据,所以对新用户没有“冷启动”的问题。
“冷启动”指的是,某些模型需要基于历史数据进行推荐,而没有历
史数据,就可以理解为“冷启动”。
在对个人画像需要更为精准评价的领域,如图书、电影等,无法
得到较好推荐效果。
(3)基于规则的推荐:比如基于最多点击、最多用户浏览等,属
于大众型的推荐算法,类似的比如“热门推荐排行榜”。目前不是主
流。
(4)社会化推荐:基于社交网络,利用用户的社会化关系进行推
荐,例如基于信任传播的推荐。
(5)上下文推荐:这类算法会充分利用上下文信息(例如位置、
时间、天气、情感等)提高推荐的精度和用户的满意度,常用于移动
推荐、音乐推荐等。
(6)基于集成学习和混合推荐:模型融合,通过多个推荐算法的
结合,得到一个更好的推荐算法。但是随之算法复杂度也会增加。实
际推荐应用中没有单一的协同过滤或者逻辑回归应用广泛。几种比较
流行的方法:
加权的混合:通过线性方法将几种不同的推荐组合起来。
您可能关注的文档
- 勤奋上进家庭格言.pdf
- 农村教育资源整合调研座谈会领导调研汇报材料讲话稿.pdf
- 养老保险申请书范文10篇.pdf
- 关于花的精彩语段.pdf
- 关于怎样的机器人作文450字.pdf
- 共青团青年之友事迹.pdf
- 公路施工现场扬尘污染防治方案(标准版).pdf
- 公共关系复习资料.pdf
- 八年级下册同步练习册答案.pdf
- 数学沪科版七年级(上册)2.1.2 第1课时 代数式的用法.pptx
- 英语人教PEP版八年级(上册)Unit4+writing+写作.pptx
- 人美版美术四年级(上册)8 笔的世界 课件 (1).pptx
- 人美版美术七年级(上册)龙的制作.pptx
- 英语人教PEP版六年级(上册)Unit 2 第一课时.pptx
- 数学苏教版三年级(上册)3.3 长方形和正方形周长的计算 苏教版(共12张PPT).pptx
- 音乐人教版八年级(上册)青春舞曲 课件2.pptx
- 音乐人教版四年级(上册) 第一单元 音乐知识 附点四分音符|人教版.pptx
- 英语人教PEP版四年级(上册)Unit 6 Part B let's learn 1.pptx
- 道德与法治人教版二年级(上册)课件-3.11大家排好队部编版(共18张PPT).pptx
- 人美版美术七年级(上册)《黄山天下奇》课件1.pptx
文档评论(0)