向大数据时代进化的数据分析案例分享.pptx

向大数据时代进化的 数据分析案例分享 阿里大数据平台的发展历程 技术—进化 (MaxCompute 2.0) 自主研发平台开始运行 自主研发的云计算平台飞天的第一 个集群稳定运行。MaxCompute 作 为核心运算引擎。 具备超大规模 海量数据处理能力 单集群规模5K台服务器 多级群能力 IOE年代 2010.10 2013 2016~2017 2009.09 2012.10 2014~2015 阿里云成立 愿景:运算/分享 数据第一平台 开始建立统一数据平台 •数据统一存储 •数据标准统一 大数据平台开始日趋成熟 • 支撑双十一海量交易 •支撑阿里金融业务创新 •大数据能力开始输出 •数据安全统一管理 阿里云数据云产品家族 从传统数据库到自研分布式数据处理平台,阿里云沉淀了丰富的云产品形态 Data IDE Quick BI Max Compute Hybrid DB 云 数据库 DataV 分析型 数据库 DataX 数加——阿里云的大数据产品家族 MaxCompute 通用计算平台 MaxCompute 比 Hadoop 更高级的抽象,用户不再需要关心集群的概念 多种任务类型 高性能 • SQL、MapReduce、MachineLearning • 100PB 级别的数据处理能力 MaxCompute 高弹性 高可靠性 • 单机群过 10000 台 • 10+ 异地集群 • 数据跨集群同步 • 运算跨集群调度 MaxCompute 的公共云用户 今天的案例 基因计算 视频直播 案例一:基因计算 人类基因的几个数字 •个体 3Gb 碱基对 •测序样本 120GB •单机计算 140 小时(5.8 天) •HPC 集群 72 小时(3 天) 主流单机做法 •脚本串联 •人肉调度运维 多个作业调度带来的挑战 分布式改造 Mapper Mapper Reducer Reducer FastQ (~120GB) GVCF (2~3GB) Mapper Reducer QC bwa samtools rmdup samtools index gatk RealignerTargetCreator gatk IndelRealigner gatk BaseRecalibrator gatk PrintReads gatk HaplotypeCaller 性能提升 100 80 60 40 20 0 单机 HPC Hadoop MaxCompute 规模 •70000+ 作业 •41.5 小时 案例二:视频直播 CDN日志 用户行为日志 Routine 任务 日调度运行 增长平稳 运营人员 Adhoc 查询 TB 总日新增 级 弹性需求强 用户自建 Hadoop 集群 弹性是最大的痛点 • 百台左右规模的 Impala 集群 • 作业均为 SQL,输入数据从 200MB~20GB 不等: select sum(a.pv) AS pv_a,sum(b.pv) AS pv_b,count(distinct b.uid) AS uv_b from (select uid,count(*) AS pv from cdn_log where dt = ‘yyyymmdd group by uid) a left outer join (select uid,count(*) AS pv from user_log where dt=‘yyyymmdd group by uid) b on (a.uid = b.uid); 扩容困难 • 机器采购、上架周期长 • 机房满,扩充机房几乎不可能 • 迁移机房,周期更长 性能对比 • 客户根据自己的使用场景,构造了类似 TPC-DS 的 SQL 测试集 • 用该测试集,对比 MaxCompute 和用户自建的 Impala • MaxCompute 完成测试集的速度平均是 Impala 的 2.11 倍 混合云 Hadoop 集群 阿里云 DataIDE Adhoc 查询 CDN日志 DataX on Hadoop Gb 级公网带宽 DataIDE 离线调度 MaxCompute 行为日志 推荐引擎 效果 弹性 节省 • 无计算不付费 • 性能更优,使用成本比竞品便宜2~10倍 • 按需划拨资源,不再担心作业大,作业多 阿里云.数加 方便 扩展 • DataIDE 提供开箱即用的 Web UI,免去用户自行开发 • 方便后续对接用户画像、推荐引擎、机器学习、人工智能 等数据产品 案例涉及的云产品回顾 MaxCompute • 大数据引擎,高性能 SQL、MR 作业执行能力 DataIDE • 一站式 Web IDE:作业开发、任务调度、数据、权限管理等 DataX • 打通多种数据源互通的渠道 征文大

文档评论(0)

1亿VIP精品文档

相关文档