大数据存储与处理推荐系统.pptx

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章 推荐系统推荐系统模型基于内容的推荐协同过滤潜在因素模型推荐系统模型从稀缺到丰富:推荐的需求The Long Tail传统零售商的货架空间是稀缺资源还包括: TV networks, movie theaters,…网络使零成本产品信息传播成为可能从稀缺到丰富Rhapsody:online music serviceWal-Malt: offline supermarketPhysical vs Online搜索推荐推荐ItemsProducts, web sites, blogs, news items, …推荐类型编辑收藏列表要目列表简单汇聚Top 10,最流行, 最新上载为每个用户定制Amazon, Netflix, …严格模型X 用户集S 项目集效用矩阵 Utility Matrix效用函数 Utility function u: R 评分集 , 完全有序集例如, 0-5 星, [0,1]之间的实数 关键问题收集已知评分形成R矩阵如何收集效用矩阵中的数据根据已知的评分推断未知的评分主要对未知的高评分感兴趣,只关心用户喜欢什么评估推断方法如何衡量推荐方法的性能评分的收集显式评价要求用户对项目给出评分实际中不太可行—困扰用户隐式评价 从用户的行为中学习其评分e.g., 购买意味着高评分什么代表低评分呢?效用的推断关键问题: 效用矩阵U稀疏大多数人没有评价过大多数项目冷启动新的项目没有评分新的用户没有历史3种方法基于内容 Content-based协同过滤 Collaborative Filtering基于潜在因素(隐变量)Latent factor based基于内容的推荐系统基于内容的推荐主要思想: 向用户 C 推荐与她评分高(喜欢)项目相类似的项目例子:电影推荐推荐相同演员、导演、流派 …Websites, blogs, news推荐类似内容的网页推荐的过程Item profileslikesbuildrecommendRedCirclesTrianglesmatchUser profile项模型 item profile对每个项目建立一份 item profileProfile 是特征features的集合movies: author, title, actor, director,…text: set of “important” words in document文本特征——关键词常用的启发式方法是 TF.IDF (Term Frequency times Inverse Doc Frequency)非文本项目特征——困难邀请用户进行标记Tag(词语、短语)Tiananmen squareSunset at MalibuRecap:TF.IDFNote: we normalize TF to discount for “longer” documents fij 文档 j 中词项i 出现的频次ni = 包含词项i的文档数N = 文档数TF.IDF分值 wij = TFij ? IDFiDoc profile = 有最高 TF.IDF 值的词汇及其对应分数的集合用户模型User profilesUser profile:反映用户的特征偏好根据项模型统计用户评过项目的项目profile加权平均启发式预测给定用户模型 x,项目模型 i, 估计用户x对于项目 i 的效用值基于内容方法的优点不需要其他用户的数据没有冷启动或者稀疏性的问题能给品味一致的用户推荐能给新项目或不流行项目推荐没有第一个评价者的问题能够提供解释可以对推荐项目给出对应的内容特征描述基于内容方法的缺点找到适当的特征是困难的e.g., images, movies, music过度集中不会推荐用户内容偏好模型之外的项目人们可能有多方面的兴趣不能利用其它用户的优质判断对新用户的推荐如何给新用户建立模型?协同过滤 collaborative filtering协同过滤考虑用户x找到与x有相似评分的用户集合 N根据N中用户的评分估计 x的评分相似的用户令 rx 为用户 x的评分矢量Jaccard 相似度问题:忽略了评分的分值余弦相似度 Cosine similarity measure问题:将缺失项目视为“否定”皮尔森相关系数 Pearson correlation coefficientSxy = 用户 x 和用户 y共同评价过的项目集合缺失 = 否定?直觉: sim(A, B) sim(A, C) ,但是Jaccard similarity: 1/5 2/4 Cosine similarity: 0.386 0.322 (接近)原因:将缺失分量视为“否定” (取0值,意味最低评价)解决措施: 减去(行)均值 ——中心化sim

文档评论(0)

文档收藏爱好者 + 关注
官方认证
内容提供者

事业编考题需要答案请私聊我发答案

认证主体莲池区卓方网络服务部
IP属地河北
统一社会信用代码/组织机构代码
92130606MA0GFXTU34

1亿VIP精品文档

相关文档