- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
阿里搜索实时计算和在线学习联系系统PORA介绍
阿里搜索实时计算及在线学习
系统Pora介绍
提纲
• 概要介绍
• 实时计算
• 在线学习
Pora概况
• 基于用户日志的实时计算和在线学习系统
• 海量数据处理
– 每天处理几百亿条实时消息
– 沉淀用户行为、商品访问、特征权重海量数据
– 集成算法模型,实时更新在线服务
• 端到端秒级实时
– 从用户行为发生到线上感知的全链路反馈
• 基于Java实现
业务场景
• 应用场景
– 实时排序/流量调控(成交提升10%)
– 实时反作弊
– 实时个性化搜索/推荐
• 业务线
– 淘宝
– 天猫
– 聚划算
– 手淘
– 1688
性能现状
• 实时性
– 端到端(从日志发生至线上生效)平均延迟3-4s
– Pora本身处理耗时在200ms左右
• 数据量
– 每天实际处理约500亿用户/商品行为消息
– 双11预计超过2000亿
• QPS
– 正常峰值超过100万/s,双11预计超过400万/s
– 对应内部HBase QPS超过500万/s,双11预计
超过2000万/s
提纲
• 概要介绍
• 实时计算
– 总体设计
– 核心层
– 业务层
• 在线学习
Pora总体架构
Pora垂直分层
11
Pora核心层(Tec)特点
• 高吞吐,低延迟,易嵌入,跨平台
– DAG实时计算框架
• 通用,少开发
– HTable存储抽象及通用实现
– 通用数据结构抽象
– 通用处理逻辑抽象
• 易维护
– Metric、Trace、通用工具集
• 松耦合,可扩展
DAG实时计算框架
• 数据接入
– Container,比如IStreamContainer通过Input Format读取输入
数据(含数据源信息)
• DAG处理链
– 针对数据源配置所有处理节点(Executor)
– Executor间通过输入输出依赖自动形成内存DAG ,允许并行执行
• 多线程并发
– 每个处理线程有一个独立的DAG实例
– 线程内置一个FIFO BlockingQueue作为实时输入数据buffer
– 异步实时获取buffer中的最新一批数据驱动DAG执行
• 线程数据分发
– Round Robin
– Field Dispatching
12
数据源及DAG处理链
14
多线程及分发机制
15
Pora业务层工作
• 配置和实现各个业务Executor
– 解析输入实时消息
– 关联查询相关用户、商品数据,并加工处理
– 调用算法插件
– 更新用户、商品数据及在线系统
• 配置DAG
– 配置Executor的参数、输入、输出
• 其它配置
– 数据源InputFormat
– Dispatch方式
– Worker数、线程数、buffer size、batch max等
Pora业务层特点
• 统一可扩展的算法插件接口
– 支持同时提供用户、商品所有数据给算法插件
• 统一完备的用户行为数据
– 点击、搜索、收藏宝贝、立刻购买、加购物车、
成交...
– 融合PC、无线端的行为历史
• 实时商品数据
– 数据按行为、来源、含义分层实时统计
17
提纲
• 概要介绍
• 实时计算
• 在线学习
– 特征实时
• 用户维度
• 商品维度
– 模型实时
特征实时-用户维度
• 输入数据
– 用户实时行为actionInfo
– 实时累计用户行为历史actionHistory
– 用户特征数据userProfile
• 算法插件
– userProfile=f(actionInfo, actionHistory,
userProfile)
特征实时-商品维度
• 输入数据
– 商品实时累计数据auctionProfile
– 商品特征数据auctionMlrdata
• 算法插件
– auctionMlrdata =f(auctionProfile,
auctionMlrdata)
特征实时应用案例
• 用户维度
– 个性化搜索
– 个性化推荐
• 商品维度
– 实时排序/流量调控 (成交提升10%)
– 反作弊
模型实时
• 背景
– 样本的数据分布在实时变化,模型因而也需要
实时变化
• 做法
– 边训练、边预测
• 实现
– 参考Downpour SGD
• 特点
– 并行化、流式处理、异步
Downpour SGD in paper
Downpour SGD in Pora
TT
Sync
HQueue
User
Auc
Alg Plugin
Calc
Sample
Calc
Gradient
Calc
Weight
Log
sample wei
您可能关注的文档
- 阻塞性睡眠呼吸暂停综合征(Obstructive sleep apnea syndrome, OSAS) 与脑卒中.ppt
- 阿尔卡特BTS硬件操作步骤.doc
- 阻塞性睡眠呼吸暂停综合征合并高血压个案查房.pptx
- 阿森纳集成橱柜的优点.ppt
- 阿尔卡特BSS简介.ppt
- 阶级斗争在社会发展中作用.ppt
- 阿母谓府吏何乃太区区此妇无礼节举动自专由.ppt
- 阿拉伯商务谈判的风格礼仪与禁忌.ppt
- 阿特拉斯台车.doc
- 阴影透视-7.ppt
- 社区教育资源对初中生学习的支持研究教学研究开题报告教学研究课题报告.docx
- 校园文化活动对初中生人际关系的影响教学研究课题报告.docx
- 初中英语写作能力提升的多元策略探讨教学研究课题报告.docx
- 初中体育课中学生参与度提升的策略教学研究课题报告.docx
- 道德与法治课程中的情感教育探索教学研究课题报告.docx
- 高中生社交技能与心理健康的关系研究教学研究课题报告.docx
- 高中生生态环境保护意识的培养教学研究课题报告.docx
- 不同学段科学教育的目标与方法分析教学研究课题报告.docx
- 探索性学习对学生创新思维的促进作用教学研究课题报告.docx
- 教育公平视角下的课程设置与实践研究教学研究课题报告.docx
文档评论(0)