对2000多亿条数据做一次.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对2000多亿条数据做一次

对2000多亿条数据做一次 Group By需要多久 易杰@腾讯 关于我 06年加入腾讯 现负责社交广告引擎研发 关注高性能架构 • 章节1 业务背景 • 章节2 系统架构 • 章节3 核心实现 • 章节4 性能数据 • 章节5 总结 腾讯社交广告 • 覆盖8亿优质用户 • 精准的定向能力 多维数据分析场景 异动分析 广告效果诊断 男性 目标人群覆盖 大盘分析 铜牌会 活跃用 提升收入 广告效果 人群管理 员 户 相似人群扩展 分析 和扩展 定向人群 用户画像 合约广告锁量 朋友圈 预估 分析 消费能力分析 多维交叉分析 11- 20- 用户出价建议 12点 30岁 年龄段分析 广东 手机品牌分析 曝光和人群预估 营销策略制定 多维数据分析场景  多维度人群下钻分析  相似人群扩展  时延100ms SQL举例 • 广告主查询用户年龄的分布 select age, count(*) from log where advertiser_id=123 group by age; • 运营查询不同曝光次数的用户的占比、点击率、收入等 SELECT exposure_num, COUNT(*) as user_num, SUM(sum_click) / SUM(exposure_num) as click_rate, SUM(sum_cost) AS total_cost FROM (SELECT qq, COUNT(*) AS exposure_num, SUM(click_count) AS sum_click, SUM(cost) AS sum_cost FROM log GROUP BY qq) temp_table GROUP BY exposure_num; 系统目标 流程描述: 原始数据集 过滤 Where 分组 Group by 聚合 Sum|Count|… 结果 高性能 低成本 可扩展 • 千亿规模原始数据集 • 索引规模相对原始数据集膨胀可控 • 增量数据修改 • (毫)秒级端到端响应 • 利用SSD磁盘,降低内存使用 • 接口易用,支持SQL/RPC 业界实现:SQL-on-Hadoop(Hive/Dremel/ Kylin/Drill)、Druid 自研:Pivot • 章节1 业务背景 • 章节2 系统架构 • 章节3 核心实现 • 章节4 性能数据 • 章节5 总结 系统架构 PhpMy Admin SQL RPC  全量 +增量,满足多种需求 查询引擎 数据导出 全量数据 增量数据  索

文档评论(0)

guoxiachuanyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档