- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
么刚-搜狗商业广告流式计算实践
搜狗商业广告流式计算实践
么刚 yaogang@
2015-04-24
目录
③
①
②
当“广告平台”遇到“流式计算”
①
商业平台大数据的挑战
Variety
文字、图片
视频、LBS
…
Velocity
年…月…周…
天…小时…秒
…
Volume
95%网民
10亿+物料
10T/天…
Veracity
User…
Advertiser…
Publisher…
商业广告平台流式计算场景
运 营 监 控
安 全 监 控
业务
接口
推广管理
物料管理
资金管理
客户/代理商管理
监控工具
优化工具
批量工具
分析工具
投放系统
关键词重写
广告检索
广告匹配
广告过滤
CTR预估
广告排序
价格计算
投放位置
计费系统
计费管理
资金管理
账单生成
账单对比
流 量 入 口
PV/
UV
入侵检测
七层DDos
架构实践
②
数据源
数据采集
数据接入
数据计算
数据查询
流式计算处理流程
采集
聚合
过滤
负载均衡
持久化
单播/广播
资源管理
任务执行
任务调度
索引
冷热分离
同步/选举
传输
读写分离
中间结果缓存
数据缓冲
高性能、高可靠、可扩展
一致性
账户状态
广告状态
时序性
广告状态消息
事务性
计费消息不能重复,不能丢失
商业平台流式计算的特点
流式计算架构图
目标
健壮性
· 网络闪断、· 机房/交换机割接、· 新版本上线
功能
· 过滤、· 断点续传
性能
· 应对突发流量
采集系统选型
选型
Scribe
Flume-NG
采集系统实践
容错性
LSN记录:断点续传和故障恢复
可扩展设计
过滤机制配置化
发送组件插件化
性能优化
异步批量push + 同步重传
数据源格式
统一
%h?%v?%V?%l?%u?%t \%r\?%s?%b \%{Referer}i\ \%{User-Agent}i\?%D
%{X-Forwarded-For}i?%h?%l?%u?%t %r?%s?%b %{Referer}i %{User-Agent}i?%D
序列号生成服务
目标
支持多Topic, 全局递增
高可用
可扩展
· 支持水平扩容缩容
· 支持topic增删
系统设计
Nginx:路由
ZK:序列号、服务拓扑(Topic-Node)、集群状态
服务集群:按照服务拓扑提供服务
高可用设计
由主节点计算服务拓扑
主节点失效:leader选举
发生Node失效,主节点重新计算服务拓扑,其他节点根据服务拓扑变化,完成FailOver。
性能
网络接口
客户端:提供批量接口
ZK:采用序列号预分配机制,降低ZK的读写压力
序列号生成服务(Contd)
master
服务拓扑
节点
Zookeeper
拓扑同步
节点
slave
slave
slave
负载均衡,在计算服务拓扑时考虑Topic的权重,防止过载
问题
数据容错
不支持exactly once
所有ISR失效时,可能消息丢失
缺乏权限控制
Kafka
高性能:O(1)
高可用:显式分布式
容错性
Replicas
zk记录消费offset
数据接入系统选型
权限控制
读权限控制:iptables
写权限控制:
拦截ProducerRequest
AppSecret: client.id+request.ip+topic
接入系统实践
容错性
利用全局MsgID进行滤重和排序
故障案例
大量超长消息导致broker异常退出(young gc bug) :升级JDK
接入系统实践(Contd)
运维工具
监控管理工具
重放/修复工具
关注点
事务性
高性能
资源管理
Storm
可扩展
高可靠性:Acker
高容错性
· 进程、主机、网络
实时性
计算系统选型
计算系统实践
资源管理
事务性
性能调优
物料审核:
AC状态机,无回溯的多模匹配
流式过滤: Bloom Filter,无漏判,低误判
复杂维度UV
统计:
Hyper LogLog,通过位图信息估计UV,位图大小决定统计精度
滑动窗口计数:DGIM, 用桶结构划分窗口,对窗口计数进行估计。
计算系统实践(Contd)
存储系统设计
目标
支持SQL接口
memory efficient
查询一致性
高可用、可扩展
存储系统实践
负载均衡设计
多partition:一致性hash
同一Partition:主从同步
冷热数据分离
Cache+持久化
置换策略:惰性更新
全局热数据定期计算
可扩展设计
配置化:内存表结构, 表索引
高可用设计
ZK维护负载均衡策略,节点失效/
扩容缩容时,各节点重新调整cache
设备冷启动:热数据加载+增量
您可能关注的文档
最近下载
- 苏教版五年级下册数学计算题每日一练带答案(共30天).docx VIP
- 学校多媒体教室维护方案.docx VIP
- 人教版高中英语选择性必修一 UNIT 3 Period 3.ppt VIP
- PMCF-plan完整可编辑版.docx VIP
- 热力学统计物理课件【共317张PPT】.ppt VIP
- 公路工程地基处理手册_0062-0122.pdf VIP
- 部编人教版三年级上册语文全册说课稿.doc VIP
- 地方国有资本投资运营企业内部控制研究-以L企业为例.pdf VIP
- 动力电池使用维护与拆解技术:动力电池拆解技术PPT教学课件.pptx VIP
- 苏教版五年级下册数学计算题每日一练带答案(共20天).docx VIP
文档评论(0)