么刚-搜狗商业广告流式计算实践.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
么刚-搜狗商业广告流式计算实践

搜狗商业广告流式计算实践 么刚 yaogang@ 2015-04-24 目录 ③ ① ② 当“广告平台”遇到“流式计算” ① 商业平台大数据的挑战 Variety 文字、图片 视频、LBS … Velocity 年…月…周… 天…小时…秒 … Volume 95%网民 10亿+物料 10T/天… Veracity User… Advertiser… Publisher… 商业广告平台流式计算场景 运 营 监 控 安 全 监 控 业务 接口 推广管理 物料管理 资金管理 客户/代理商管理 监控工具 优化工具 批量工具 分析工具 投放系统 关键词重写 广告检索 广告匹配 广告过滤 CTR预估 广告排序 价格计算 投放位置 计费系统 计费管理 资金管理 账单生成 账单对比 流 量 入 口 PV/ UV 入侵检测 七层DDos 架构实践 ② 数据源 数据采集 数据接入 数据计算 数据查询 流式计算处理流程 采集 聚合 过滤 负载均衡 持久化 单播/广播 资源管理 任务执行 任务调度 索引 冷热分离 同步/选举 传输 读写分离 中间结果缓存 数据缓冲 高性能、高可靠、可扩展 一致性 账户状态 广告状态 时序性 广告状态消息 事务性 计费消息不能重复,不能丢失 商业平台流式计算的特点 流式计算架构图 目标 健壮性 · 网络闪断、· 机房/交换机割接、· 新版本上线 功能 · 过滤、· 断点续传 性能 · 应对突发流量 采集系统选型 选型 Scribe Flume-NG 采集系统实践 容错性 LSN记录:断点续传和故障恢复 可扩展设计 过滤机制配置化 发送组件插件化 性能优化 异步批量push + 同步重传 数据源格式 统一 %h?%v?%V?%l?%u?%t \%r\?%s?%b \%{Referer}i\ \%{User-Agent}i\?%D %{X-Forwarded-For}i?%h?%l?%u?%t %r?%s?%b %{Referer}i %{User-Agent}i?%D 序列号生成服务 目标 支持多Topic, 全局递增 高可用 可扩展 · 支持水平扩容缩容 · 支持topic增删 系统设计 Nginx:路由 ZK:序列号、服务拓扑(Topic-Node)、集群状态 服务集群:按照服务拓扑提供服务 高可用设计 由主节点计算服务拓扑 主节点失效:leader选举 发生Node失效,主节点重新计算服务拓扑,其他节点根据服务拓扑变化,完成FailOver。 性能 网络接口 客户端:提供批量接口 ZK:采用序列号预分配机制,降低ZK的读写压力 序列号生成服务(Contd) master 服务拓扑 节点 Zookeeper 拓扑同步 节点 slave slave slave 负载均衡,在计算服务拓扑时考虑Topic的权重,防止过载 问题 数据容错 不支持exactly once 所有ISR失效时,可能消息丢失 缺乏权限控制 Kafka 高性能:O(1) 高可用:显式分布式 容错性 Replicas zk记录消费offset 数据接入系统选型 权限控制 读权限控制:iptables 写权限控制: 拦截ProducerRequest AppSecret: client.id+request.ip+topic 接入系统实践 容错性 利用全局MsgID进行滤重和排序 故障案例 大量超长消息导致broker异常退出(young gc bug) :升级JDK 接入系统实践(Contd) 运维工具 监控管理工具 重放/修复工具 关注点 事务性 高性能 资源管理 Storm 可扩展 高可靠性:Acker 高容错性 · 进程、主机、网络 实时性 计算系统选型 计算系统实践 资源管理 事务性 性能调优 物料审核: AC状态机,无回溯的多模匹配 流式过滤: Bloom Filter,无漏判,低误判 复杂维度UV 统计: Hyper LogLog,通过位图信息估计UV,位图大小决定统计精度 滑动窗口计数:DGIM, 用桶结构划分窗口,对窗口计数进行估计。 计算系统实践(Contd) 存储系统设计 目标 支持SQL接口 memory efficient 查询一致性 高可用、可扩展 存储系统实践 负载均衡设计 多partition:一致性hash 同一Partition:主从同步 冷热数据分离 Cache+持久化 置换策略:惰性更新 全局热数据定期计算 可扩展设计 配置化:内存表结构, 表索引 高可用设计 ZK维护负载均衡策略,节点失效/ 扩容缩容时,各节点重新调整cache 设备冷启动:热数据加载+增量

文档评论(0)

ddf55855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档