- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度学习在微博信息流推荐系统的实践与应用.pdf
深度学习Deep CTR 套件
胡南炜
微博 架构师
目录
01 概述
02 训练与分析
03 导出与预测
04 总结
01 概述
2016-06 Google, Play 应用推荐引入 Wide & Deep ,3.9%
2016-09 Google, YouTube 视频推荐引入 DNN 模型
2017-05 Twitter, 时间序引入深度学习,互动率和时长显著 增长
2017-07 美团,搜索推荐引入深度学习,3%AUC
背景
标准化 更省心
工具化 更简单
服务化 更快速
功能
输入:csv格式,数据清洗等
特征:连续、离散、文本、标签…
模型:DNN、Wide&Deep
预测:开箱即用
分布式计算
02 训练与分析
配置
训练
分析
02 训练与分析
配置
训练
分析
配置
训练
训练
分析
分析
分析
03 导出与预测
04 分布式计算-TensorFlow on yarn
04 为什么TensorFlow on yarn
集群资源的统一管理和分配
作业统一管理,运行状态实时跟踪,在线的log查看
作业进程的资源隔离
利用微博现有的Hadoop集群
04 TensorFlow on yarn-资源分配
AppMaster自动分配PS hosts和Worker Hosts ,并自动分配端口号
自动分配TensorBoard可视化所需的host和端口号
对训练数据自动进行数据分片
启动PS Task和Worker Task ,启动TensorBoard
04 TensorFlow on yarn-模型训练
TensorFlow根据PS hosts和Worker hosts组装成ClusterSpec
Worker task从HDFS读取其分片的训练数据,进行训练
训练过程中定期将checkpoint保存到HDFS中
通过TensorBoard实时查看计算情况
04 TensorFlow on yarn-资源回收
训练结束后模型保存到HDFS
AppMaster强制结束PS进程
AppMaster强制结束TensorBoard进程
04 TensorFlow on yarn-示例启动脚
本
总结
标准化 :支持全部微博特征
工具化 : 简化了深度学习引入排序模型
服务化 : 支持Tf-Serving预测服务
Thank you!
文档评论(0)