- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
京东推荐系统实践剖析
京东推荐系统实践
打造千人千面的个性化推荐引擎
目
推荐系统
1
2
3
4
京东推荐产品及架构
通用模型的应用
离线 CTR 预测实例
实验与监控
目
推荐系统
1
2
3
4
京东推荐产品及架构
通用模型的应用
离线 CTR 预测实例
实验与监控
京东推荐产品
• 80+ 推荐产品,包括移动端和 Web 端
• 20+ 推荐服务,支撑 EDM、广告、微信端等
• 遍布用户网购的各个环节
推荐系统的价值
• 挖掘用户潜在购买需求
• 缩短用户到商品的距离
• 用户需求不明确时提供参考
• 满足用户的好奇心
推荐产品截图示例
不同位置的推荐产品定位不同
• 单品页:购买意图
• 过渡页:提高客单价
• 购物车页:购物决策
• 无结果页:减少跳出率
• 订单完成页:交叉销售
• 关注推荐:提高转化
• 我的京东推荐:提高忠诚度
• 首页猜你喜欢:吸引用户
京东推荐系统架构
京东推荐算法优化方向
• 以数据分析为工具,提升数据的质量和覆盖度,增强对业务的理解(25%)
• 测试不同算法在不同数据源的效果,提高召回模型的质量,增加结果辨识
度(50%)
• 以用户反馈为依据,融合不同类型、不同维度据源,对推荐结果重排序
(15%)
• 增加数据的更新频率(5%)
• 其他(5%)
推荐系统效果全景图
注:出于公司数据发布安全考虑,已对品类订单占比数据做了随机变换,仅为演示所用
目
推荐系统
1
2
3
4
京东推荐产品及架构
通用模型的应用
离线 CTR 预测实例
实验与监控
京东对推荐数据的理解
用户行为
1
2
3
4
5
浏览
点击
• 普通点击
• 搜索点击
加入购物车(或关注)
购买
• 订单
• 用户
评分
基于内容
• 标题
• 扩展属性
• 评论
• 描述
• ...
典型推荐系统技术
按照数据的分类: 协同过滤、内容过滤、社会化过滤
按照模型的分类: 基于近邻的模型、矩阵分解模型、图模型
协同过滤 I
用户和商品的共现阵:
I
U
1,0,0,0,0,1,
0,1,0,0,0,0,
1,1,0,0,0,1,
0,0,0,0,1,0,
0,0,1,0,1,0,
0,0,1,0,1,0,
0,0,0,1,0,0,
0,0,0,0,0,1,
0,0,0,0,1,0,
0,0,1,0,0,1,
对于商品 (item) 向量至少有 10+ 的距离计
算公式来计算商品间的距离,一般有:
• Jaccard 距离
• (修正)cosine 距离
• Manhattan 距离
• Chebychev 距离
• 欧 (闵) 式距离
• Pearson 相关系数
• Spearman 相关系数
• Kendall 相关系数
• ...
协同过滤 II
以及不太常见的:
• simrank
• Mahalanobis 距离
• 基于条件概率的 interest
• Log likelihood ratio
• Mutual information
支持类模型
• 离线推荐 CTR 预测模型
• 用户购买力模型
• 周期购买商品识别模型(商品识别 + 购买周期)
• ``不良 商品识别模型
• 基于图书内容的 LDA 模型
• 用户行为加权组合的 SVD、SVD++
关于冷启动
对于“瓜子”我们应该推荐什么
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1591_ 瓜子
1590_ 锅巴
1590_ 薯片
1590_ 花生
1591_ 开心果
1591_ 花生
1591_ 西瓜子
1591_ 腰果
1595_ 饼干
1590_ 豆腐干
1592_ 牛肉干
1594_ 口香糖
1591_ 炒货
1590_ 肉松饼
1671_ 卫生纸
1593_ 大枣
1.000
0.596
0.443
0.318
0.274
0.265
0.235
0.230
0.227
0.226
0.206
0.204
0.203
0.172
0.165
周期类商品(部分)
作弊和反作弊
• 用户行为的复杂
• 过度 SEO
• 直接作弊
策略:
• 异常行为降权
• 异常用户直接过滤
• 点击流规则过滤
目
推荐系统
1
2
3
4
京东推荐产品及架构
通用模型的应用
离线 CTR 预测实例
文档评论(0)