大数据存储与处理-推荐系统教程.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章 推荐系统 郭宇春 1 推荐系统模型 基于内容的推荐 协同过滤 潜在因素模型 2 推荐系统模型 3 从稀缺到丰富:推荐的需求 传统零售商的货架空间是稀缺资源 还包括: TV networks, movie theaters,… 网络使零成本产品信息传播成为可能 从稀缺到丰富 The Long Tail Rhapsody:online music service Wal-Malt: offline supermarket Physical vs Online 5 Read /wired/archive/12.10/tail.html to learn more! 推荐 6 Items Products, web sites, blogs, news items, … 推荐类型 编辑 收藏列表 要目列表 简单汇聚 Top 10,最流行, 最新上载 为每个用户定制 Amazon, Netflix, … 严格模型 X 用户集 S 项目集 效用矩阵 Utility Matrix 效用函数 Utility function u: R 评分集 , 完全有序集 例如, 0-5 星, [0,1]之间的实数 关键问题 收集已知评分形成R矩阵 如何收集效用矩阵中的数据 根据已知的评分推断未知的评分 主要对未知的高评分感兴趣,只关心用户喜欢什么 评估推断方法 如何衡量推荐方法的性能 评分的收集 显式评价 要求用户对项目给出评分 实际中不太可行—困扰用户 隐式评价 从用户的行为中学习其评分 e.g., 购买意味着高评分 什么代表低评分呢? 效用的推断 关键问题: 效用矩阵U稀疏 大多数人没有评价过大多数项目 冷启动 新的项目没有评分 新的用户没有历史 3种方法 基于内容 Content-based 协同过滤 Collaborative Filtering 基于潜在因素(隐变量)Latent factor based 基于内容的推荐系统 12 基于内容的推荐 主要思想: 向用户 C 推荐与她评分高(喜欢)项目相类似的项目 例子: 电影推荐 推荐相同演员、导演、流派 … Websites, blogs, news 推荐类似内容的网页 13 推荐的过程 likes Item profiles Red Circles Triangles User profile match recommend build 项模型 item profile 对每个项目建立一份 item profile Profile 是特征features的集合 movies: author, title, actor, director,… text: set of “important” words in document 文本特征——关键词 常用的启发式方法是 TF.IDF (Term Frequency times Inverse Doc Frequency) 非文本项目特征——困难 邀请用户进行标记Tag(词语、短语) Sunset at Malibu Tiananmen square Recap:TF.IDF fij 文档 j 中词项i 出现的频次 ni = 包含词项i的文档数 N = 文档数 TF.IDF分值 wij = TFij  IDFi Doc profile = 有最高 TF.IDF 值的词汇及其对应分数的集合 Note: we normalize TF to discount for “longer” documents 用户模型User profiles User profile: 反映用户的特征偏好 根据项模型统计 用户评过项目的项目profile加权平均 启发式预测 给定用户模型 x,项目模型 i, 估计用户x对于项目 i 的效用值 基于内容方法的优点 不需要其他用户的数据 没有冷启动或者稀疏性的问题 能给品味一致的用户推荐 能给新项目或不流行项目推荐 没有第一个评价者的问题 能够提供解释 可以对推荐项目给出对应的内容特征描述 18 基于内容方法的缺点 找到适当的特征是困难的 e.g., images, movies, music 过度集中 不会推荐用户内容偏好模型之外的项目 人们可能有多方面的兴趣 不能利用其它用户的优质判断 对新用户的推荐 如何给新用户建立模型? 19 协同过滤 collaborative filtering 20 协同过滤 考虑用户x 找到与x有相似评分的用户集合 N 根据N中用户的评分估计 x的评分 21 相似的用户 令 rx 为用户 x的评分矢量 Jaccard 相似度 问题:忽略了评分的分值 余弦相似度 Cosine similarity measure 问题:将缺失

文档评论(0)

阿里山的姑娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档