- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对2000多亿条数据做一次
对2000多亿条数据做一次
Group By需要多久
易杰@腾讯
关于我
06年加入腾讯
现负责社交广告引擎研发
关注高性能架构
• 章节1 业务背景
• 章节2 系统架构
• 章节3 核心实现
• 章节4 性能数据
• 章节5 总结
腾讯社交广告
• 覆盖8亿优质用户
• 精准的定向能力
多维数据分析场景
异动分析 广告效果诊断 男性 目标人群覆盖
大盘分析 铜牌会 活跃用
提升收入 广告效果 人群管理 员 户 相似人群扩展
分析 和扩展
定向人群 用户画像
合约广告锁量 朋友圈 预估 分析 消费能力分析
多维交叉分析
11- 20-
用户出价建议 12点 30岁 年龄段分析
广东 手机品牌分析
曝光和人群预估 营销策略制定
多维数据分析场景
多维度人群下钻分析
相似人群扩展
时延100ms
SQL举例
• 广告主查询用户年龄的分布
select age, count(*) from log where advertiser_id=123 group by age;
• 运营查询不同曝光次数的用户的占比、点击率、收入等
SELECT exposure_num, COUNT(*) as user_num,
SUM(sum_click) / SUM(exposure_num) as click_rate, SUM(sum_cost) AS total_cost
FROM
(SELECT qq, COUNT(*) AS exposure_num,
SUM(click_count) AS sum_click, SUM(cost) AS sum_cost
FROM log
GROUP BY qq) temp_table
GROUP BY exposure_num;
系统目标
流程描述: 原始数据集 过滤 Where 分组 Group by 聚合 Sum|Count|… 结果
高性能 低成本 可扩展
• 千亿规模原始数据集 • 索引规模相对原始数据集膨胀可控 • 增量数据修改
• (毫)秒级端到端响应 • 利用SSD磁盘,降低内存使用 • 接口易用,支持SQL/RPC
业界实现:SQL-on-Hadoop(Hive/Dremel/ Kylin/Drill)、Druid
自研:Pivot
• 章节1 业务背景
• 章节2 系统架构
• 章节3 核心实现
• 章节4 性能数据
• 章节5 总结
系统架构
PhpMy
Admin SQL RPC
全量 +增量,满足多种需求
查询引擎 数据导出 全量数据 增量数据 索
原创力文档


文档评论(0)