- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个性化推荐架构设计
技术创新,变革未来
推荐引擎
为什么要做推荐系统
千万级视频资源
月活亿级用户量
推荐系统是继搜索之后解决数据过载的重要方法
产品形式:首页下拉个性化消费流
下载渠道:应用宝、百手等部分渠道下载
个性化推荐产品形态
产品形式:基于PGC/UGC的个性化短视频推荐APP
下载渠道:计划11月底上线iOSAndroid
个性化推荐产品形态
界面交互
入口
基础界面
单视频卡片
长视频卡片
多视频卡片
个性化推荐产品形态
搜狐视频推荐系统整体概况
整合全站视频资源,通过“推荐引擎”和“视频处理引擎”将个性化、新鲜的视频快速分 发到以适合场景,以合适形式传递给适合用户
计算快速:2秒 , 分布式高可用实时计算,稳定/灵活/易扩展;
海量数据分析: Online 17亿+ Offline 170亿+
智能排序:实时特征工程、在线学习、多模型融合
基础组件:知识库、主题模型、用户/视频画像、实时反馈/统计、独立后台、推荐引擎、 视频处理引擎等,保证产品功能完备;
推荐系统架构
点击日志
观影日志
展示日志
负载均衡
LVS
负载均衡
Nginx
应用容器
Je/y
前端日志接入
日志采集
Flume
实时传输
ka7a
实时传输
Rocketmq
数据采集
离线计算和分析
存储
Hdfs
实时计算
存储
hbase
推荐引擎
storm
特征画像引擎
Spark streming
视频处理引擎
Marathon+Mesos
缓存
redis
离线计算
MapReduceSpark
hive
mllib
….
算法C
算法A
算法B
算法N
算法库
模型库
特征A_1
排序A_2
召回模型A
推荐结果
视频画像
视频评分
模型N_2
用户画像
….
召回模型B
缓存
redis
推荐系统架构
知识库
自然语言处理系统
排序
特征工程
召回模型
规则卡片封装
实时反馈系统
用户画像
展示日志处理
点击 日志 处理
观影日志处理
推荐结果
推 荐 引 擎
基 础 组 件
主题模型
评分系统
监控系统
卡片类型BF
个性化配置
视频 处理 引擎
视频画像
相关服务
…
主题模型服务
推荐系统架构
推荐系统
推荐结果
推荐内容倒排存储
index
card
0
Card_0
1
Card_1
2
Card_2
3
Card_3
4
Card_4
..
…
..
…
冯小刚
推荐引擎
视频处理引擎
召回模型
配比
排序
和谐性处理
Key倒排
存储系统
推荐系统架构架构
推荐引擎
Bolt: localOrShuffleGroupingfieldsGrouping
基于Redis 一致性(CAS)
Kafka
用户行为日志
用户展示日志
观影日志
观影日志处理模块 行为日志处理模块 展示日志处理模块
多端用户唯一标示统一Ukey
部分实时用户画像 推荐结果
推荐系统架构-推荐引擎(storm)
观影处理模块
行为处理模块
展示处理模块
召回模型
配比
index
card
0
Card_0
1
Card_1
2
Card_2
3
Card_3
4
Card_4
..
…
..
…
排序
和谐性处理
推荐系统架构-推荐引擎(storm)
召回模型
海量的视频中选择用户感兴趣的候选集合的方法
配比
多角度看用户(多个召回模型结果融合)
排序
统一排序规则、多机器学习模型
和谐性处理
多样性、覆盖率
推荐系统架构-推荐引擎
召回模型
离线:
SVD++、Slope one、ALS等矩阵分解模型为离线模型
如基于图模型和内容推荐的融合:Item CF-KNN、User CF-KNN
在线:
基于自然语言处理系统构建的分类体系、topic、keyword
基于时间+地理位置的实时场景位置的构建。
海量的视频中选择用户感兴趣的候选集合的方法
协同过滤:Item CF(Slope one),User CF,矩阵分解模型
(SVD++、RSVD、ALS)、图模型(co-view图模型)
内容过滤:(Content-based Filtering)
基于人口统计学和社会化过滤
(年龄、性别、工作、学历、居住地)
基于位置的过滤(场景和上下信息推荐方式)
方法
推荐引擎-召回模型
配比
多角度看用户
推荐引擎-配比
X1,X2,X3,…,Xn-1Xn, Xn+1,Xn+2….,Xn+19, Xn+20
假设有20个召回模型,我们用20维表示,每一维的值,代表配比数量,最大200
用户 召回模型
打开率
推荐引擎-配比
Score模型
排序
算CTR[score模型](FTRL、SGD、L-BFGS、FFM)
高级特征转化(GBDT、DNN、FM)
基础特征工程(Spark streaming )
特征工程排序模型
在线增量学习架构
展示日志
点击日
文档评论(0)