阿里搜索实时计算和在线学习联系系统PORA介绍.pptx

阿里搜索实时计算和在线学习联系系统PORA介绍.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
阿里搜索实时计算和在线学习联系系统PORA介绍

阿里搜索实时计算及在线学习 系统Pora介绍 提纲 • 概要介绍 • 实时计算 • 在线学习 Pora概况 • 基于用户日志的实时计算和在线学习系统 • 海量数据处理 – 每天处理几百亿条实时消息 – 沉淀用户行为、商品访问、特征权重海量数据 – 集成算法模型,实时更新在线服务 • 端到端秒级实时 – 从用户行为发生到线上感知的全链路反馈 • 基于Java实现 业务场景 • 应用场景 – 实时排序/流量调控(成交提升10%) – 实时反作弊 – 实时个性化搜索/推荐 • 业务线 – 淘宝 – 天猫 – 聚划算 – 手淘 – 1688 性能现状 • 实时性 – 端到端(从日志发生至线上生效)平均延迟3-4s – Pora本身处理耗时在200ms左右 • 数据量 – 每天实际处理约500亿用户/商品行为消息 – 双11预计超过2000亿 • QPS – 正常峰值超过100万/s,双11预计超过400万/s – 对应内部HBase QPS超过500万/s,双11预计 超过2000万/s 提纲 • 概要介绍 • 实时计算 – 总体设计 – 核心层 – 业务层 • 在线学习 Pora总体架构 Pora垂直分层 11 Pora核心层(Tec)特点 • 高吞吐,低延迟,易嵌入,跨平台 – DAG实时计算框架 • 通用,少开发 – HTable存储抽象及通用实现 – 通用数据结构抽象 – 通用处理逻辑抽象 • 易维护 – Metric、Trace、通用工具集 • 松耦合,可扩展 DAG实时计算框架 • 数据接入 – Container,比如IStreamContainer通过Input Format读取输入 数据(含数据源信息) • DAG处理链 – 针对数据源配置所有处理节点(Executor) – Executor间通过输入输出依赖自动形成内存DAG ,允许并行执行 • 多线程并发 – 每个处理线程有一个独立的DAG实例 – 线程内置一个FIFO BlockingQueue作为实时输入数据buffer – 异步实时获取buffer中的最新一批数据驱动DAG执行 • 线程数据分发 – Round Robin – Field Dispatching 12 数据源及DAG处理链 14 多线程及分发机制 15 Pora业务层工作 • 配置和实现各个业务Executor – 解析输入实时消息 – 关联查询相关用户、商品数据,并加工处理 – 调用算法插件 – 更新用户、商品数据及在线系统 • 配置DAG – 配置Executor的参数、输入、输出 • 其它配置 – 数据源InputFormat – Dispatch方式 – Worker数、线程数、buffer size、batch max等 Pora业务层特点 • 统一可扩展的算法插件接口 – 支持同时提供用户、商品所有数据给算法插件 • 统一完备的用户行为数据 – 点击、搜索、收藏宝贝、立刻购买、加购物车、 成交... – 融合PC、无线端的行为历史 • 实时商品数据 – 数据按行为、来源、含义分层实时统计 17 提纲 • 概要介绍 • 实时计算 • 在线学习 – 特征实时 • 用户维度 • 商品维度 – 模型实时 特征实时-用户维度 • 输入数据 – 用户实时行为actionInfo – 实时累计用户行为历史actionHistory – 用户特征数据userProfile • 算法插件 – userProfile=f(actionInfo, actionHistory, userProfile) 特征实时-商品维度 • 输入数据 – 商品实时累计数据auctionProfile – 商品特征数据auctionMlrdata • 算法插件 – auctionMlrdata =f(auctionProfile, auctionMlrdata) 特征实时应用案例 • 用户维度 – 个性化搜索 – 个性化推荐 • 商品维度 – 实时排序/流量调控 (成交提升10%) – 反作弊 模型实时 • 背景 – 样本的数据分布在实时变化,模型因而也需要 实时变化 • 做法 – 边训练、边预测 • 实现 – 参考Downpour SGD • 特点 – 并行化、流式处理、异步 Downpour SGD in paper Downpour SGD in Pora TT Sync HQueue User Auc Alg Plugin Calc Sample Calc Gradient Calc Weight Log sample wei

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档