- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
京东⼲告和推荐的机器学习系统实践
⺫录
Òꢀ 背景介绍
Òꢀ 浅层模型时代
Òꢀ 深度学习时代
|
背景介绍 我们的业务
ꢢꢣꢬꢭ
ꢙꢚꢤꢥꢝ
ꢙꢚꢛꢜꢝ
ꢀꢁꢦꢧꢨ
ꢀꢁꢅꢆꢳꢴ
ꢅꢆꢍꢎ
ꢀꢁꢂꢃꢄꢅꢆꢇꢈ
ꢉꢊꢋꢌ
ꢓꢔ
ꢱꢲ
ꢞꢟꢠꢡꢢꢣ
ꢩꢪꢫꢬꢭ
ꢂꢃꢍꢎ
ꢀꢏꢐꢂꢃꢑ
ꢒ
ꢕꢖꢗꢘꢋꢌ
ꢮꢯꢰꢬꢭ
|
背景介绍 问题
Òꢀ 主要解决的问题
Éꢀ机器学习在排序算法中的应用
Éꢀ特点:
Ðꢀ实时,在线
Ðꢀ⼴告,推荐的混合系统
⺫录
Òꢀ 背景介绍
Òꢀ 浅层模型时代
Òꢀ 深度学习时代
|
浅层模型时代 机器学习系统核⼼问题
Òꢀ 模型算法
Òꢀ 日志流
Òꢀ 训练系统
Òꢀ 特征系统
Òꢀ 评估系统
|
浅层模型时代 模型算法
Òꢀ 浅层模型算法:
Éꢀ⼤规模稀疏性特征建模,lr
: 特征
Éꢀ核⼼优化⽅向
Ðꢀ手工特征⼯程
Ðꢀ特征组合算法:
×ꢀ Fm/ffm
×ꢀ gbdt+lr
|
浅层模型时代 模型算法
Òꢀ Fm/ffm
Éꢀ通过因式分解,减少数据稀疏性,有效学习特征
组合
Éꢀ参数规模:n^2降为k*n(kn, k为factor⼤小,n特
征数目)
Éꢀ问题:全组合的话,模型size = n*k,收益和资源
的取舍
|
浅层模型时代 特征系统
Òꢀ 特征系统主要问题:
Éꢀ线上线下特征⼀致性
Éꢀ根据经验,线上线下特征⼀致性的架构,在业务
指标上能带来数量级的提升
|
浅层模型时代 特征系统架构演化
Òꢀ 第⼀版,开始引⼊机器学习模块,问题产⽣
Application Server
Predictor
ꢀꢁꢂꢃꢃꢁꢄꢅꢆꢄꢇꢈꢉꢊꢄꢅ
ꢋꢌꢈꢊꢇꢍꢈꢃꢎꢁ
ꢂꢎꢏꢏꢃꢁꢏ
instance
Predictor
ꢐꢇꢁꢑꢃꢁꢏ
ꢒ
Model
ꢓ
instance
Offline Feature
Extraction
Training
System
Raw Log
|
浅层模型时代 特征系统架构
Òꢀ 第⼆版,解决代码不⼀致,代码复用
Application Server
Predictor
ꢀ ꢁꢂꢃꢃꢁꢄꢅꢆꢄꢇꢈꢉꢊꢄꢅ
ꢋꢌꢈꢊꢇꢍꢈꢃꢎꢁ
ꢂꢎꢏꢏꢃꢁꢏ
instance
Predictor
ꢐꢇꢁꢑꢃꢁꢏ
ꢒ
Model
Feature
Extraction
Library
instance
Offline Feature
Extraction
Training
System
Raw Log?
|
浅层模型时代 特征系统架构
Òꢀ 第三版,解决数据不⼀致,彻底保证正确性
Application Server
Predictor
ꢀꢁꢂꢃꢃꢁꢄꢅꢆꢄꢇꢈꢉꢊꢄꢅ
ꢋꢌꢈꢊꢇꢍꢈꢃꢎꢁ
ꢂꢎꢏꢏꢃꢁꢏ
instance
Predictor
ꢐꢇꢁꢑꢃꢁꢏ
ꢒ
Model
Training
System
Raw Log
Instance Log
|
浅层模型时代 特征系统
Éꢀ 特征系统架构演变小结
Ðꢀ特征=数据源+抽取算法
Ðꢀ第⼀版是自然的选择
×ꢀ 机器学习系统是优化阶段的⼯作,先有日志后有机器学习
Ðꢀ第⼆版是策略效率为先的选择
×ꢀ 策略⼈员驱动后续的技术升级,离线代码驱动,先有离线代码后有在
线代码
×ꢀ 日志量Double引发的资源担忧
×ꢀ 特征优化可以回朔历史数据,周期短
Ðꢀ第三版是保证策略收益的选择
×ꢀ 在线系统驱动特征升级,牺牲开发效率,保证正确性
|
浅层模型时代 模型效果评估
Òꢀ 评估指标
ÉꢀAUC
ÉꢀInverse Ratio
Òꢀ 评估系统的主要问题:
Éꢀ各种乌龙,结论不可信
Éꢀ旧⽅案:离线⼯具评估离线指标
Éꢀ新⽅案:在线系统评估离线指标
|
浅层模型时代 模型效果评估
Òꢀ 在线旁路评估系统
Òꢀ 将在线predictor作为离线评估的inference⼯具
Òꢀ 将在线日志流作为离线评估数据
Òꢀ 离线测试模型接⼊在线predictor集群
|
浅层模型时代 旁路评估架构图
Òꢀ 引⼊在线旁路评估后系统图
Online Evaluation System
Traning Data Pipeline
Metrics
computation
Metrics
Storage
flume
kafaka
storm
UI
Predictor
Proxy
ꢈꢉꢊꢋꢌꢊꢍꢎꢏꢐ
ꢀꢁꢂꢃꢄꢅꢆꢇ
ZooKeeper
request
routing
Predictor Cluster System
predictor
…
predictor
|
浅层模型时代 在线旁路评估
Òꢀ 收益
Éꢀ数据可比,可信
Ðꢀ⼯具到服务平台的升级
Ðꢀ避免数据diff和⼯具bug的⼲扰
Ðꢀ彻底解决在线实时服务模型中的评估穿越问题
|
浅层模型时代 模型效果评估
Òꢀ 在线实时服务模
文档评论(0)