- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章 推荐系统
郭宇春
1
推荐系统模型
基于内容的推荐
协同过滤
潜在因素模型
2
推荐系统模型
3
从稀缺到丰富:推荐的需求
传统零售商的货架空间是稀缺资源
还包括: TV networks, movie theaters,…
网络使零成本产品信息传播成为可能
从稀缺到丰富
The Long Tail
Rhapsody:online music service
Wal-Malt: offline supermarket
Physical vs Online
5
Read /wired/archive/12.10/tail.html to learn more!
推荐
6
Items
Products, web sites, blogs, news items, …
推荐类型
编辑
收藏列表
要目列表
简单汇聚
Top 10,最流行, 最新上载
为每个用户定制
Amazon, Netflix, …
严格模型
X 用户集
S 项目集
效用矩阵 Utility Matrix
效用函数 Utility function u:
R 评分集 , 完全有序集
例如, 0-5 星, [0,1]之间的实数
关键问题
收集已知评分形成R矩阵
如何收集效用矩阵中的数据
根据已知的评分推断未知的评分
主要对未知的高评分感兴趣,只关心用户喜欢什么
评估推断方法
如何衡量推荐方法的性能
评分的收集
显式评价
要求用户对项目给出评分
实际中不太可行—困扰用户
隐式评价
从用户的行为中学习其评分
e.g., 购买意味着高评分
什么代表低评分呢?
效用的推断
关键问题: 效用矩阵U稀疏
大多数人没有评价过大多数项目
冷启动
新的项目没有评分
新的用户没有历史
3种方法
基于内容 Content-based
协同过滤 Collaborative Filtering
基于潜在因素(隐变量)Latent factor based
基于内容的推荐系统
12
基于内容的推荐
主要思想: 向用户 C 推荐与她评分高(喜欢)项目相类似的项目
例子:
电影推荐
推荐相同演员、导演、流派 …
Websites, blogs, news
推荐类似内容的网页
13
推荐的过程
likes
Item profiles
Red
Circles
Triangles
User profile
match
recommend
build
项模型 item profile
对每个项目建立一份 item profile
Profile 是特征features的集合
movies: author, title, actor, director,…
text: set of “important” words in document
文本特征——关键词
常用的启发式方法是 TF.IDF (Term Frequency times Inverse Doc Frequency)
非文本项目特征——困难
邀请用户进行标记Tag(词语、短语)
Sunset at Malibu
Tiananmen square
Recap:TF.IDF
fij 文档 j 中词项i 出现的频次
ni = 包含词项i的文档数
N = 文档数
TF.IDF分值 wij = TFij IDFi
Doc profile = 有最高 TF.IDF 值的词汇及其对应分数的集合
Note: we normalize TF to discount for “longer” documents
用户模型User profiles
User profile:
反映用户的特征偏好
根据项模型统计
用户评过项目的项目profile加权平均
启发式预测
给定用户模型 x,项目模型 i, 估计用户x对于项目 i 的效用值
基于内容方法的优点
不需要其他用户的数据
没有冷启动或者稀疏性的问题
能给品味一致的用户推荐
能给新项目或不流行项目推荐
没有第一个评价者的问题
能够提供解释
可以对推荐项目给出对应的内容特征描述
18
基于内容方法的缺点
找到适当的特征是困难的
e.g., images, movies, music
过度集中
不会推荐用户内容偏好模型之外的项目
人们可能有多方面的兴趣
不能利用其它用户的优质判断
对新用户的推荐
如何给新用户建立模型?
19
协同过滤 collaborative filtering
20
协同过滤
考虑用户x
找到与x有相似评分的用户集合 N
根据N中用户的评分估计 x的评分
21
相似的用户
令 rx 为用户 x的评分矢量
Jaccard 相似度
问题:忽略了评分的分值
余弦相似度 Cosine similarity measure
问题:将缺失
文档评论(0)