向大数据时代进化的
数据分析案例分享
阿里大数据平台的发展历程
技术—进化
(MaxCompute 2.0)
自主研发平台开始运行
自主研发的云计算平台飞天的第一
个集群稳定运行。MaxCompute 作
为核心运算引擎。
具备超大规模
海量数据处理能力
单集群规模5K台服务器
多级群能力
IOE年代
2010.10
2013
2016~2017
2009.09
2012.10
2014~2015
阿里云成立
愿景:运算/分享 数据第一平台
开始建立统一数据平台
•数据统一存储
•数据标准统一
大数据平台开始日趋成熟
•
支撑双十一海量交易
•支撑阿里金融业务创新
•大数据能力开始输出
•数据安全统一管理
阿里云数据云产品家族
从传统数据库到自研分布式数据处理平台,阿里云沉淀了丰富的云产品形态
Data
IDE
Quick
BI
Max
Compute
Hybrid
DB
云
数据库
DataV
分析型
数据库
DataX
数加——阿里云的大数据产品家族
MaxCompute
通用计算平台
MaxCompute
比 Hadoop 更高级的抽象,用户不再需要关心集群的概念
多种任务类型
高性能
• SQL、MapReduce、MachineLearning
• 100PB 级别的数据处理能力
MaxCompute
高弹性
高可靠性
• 单机群过 10000 台
• 10+ 异地集群
• 数据跨集群同步
• 运算跨集群调度
MaxCompute 的公共云用户
今天的案例
基因计算 视频直播
案例一:基因计算
人类基因的几个数字
•个体 3Gb 碱基对
•测序样本 120GB
•单机计算 140 小时(5.8 天)
•HPC 集群 72 小时(3 天)
主流单机做法
•脚本串联
•人肉调度运维
多个作业调度带来的挑战
分布式改造
Mapper
Mapper
Reducer
Reducer
FastQ
(~120GB)
GVCF
(2~3GB)
Mapper
Reducer
QC
bwa
samtools rmdup
samtools index
gatk RealignerTargetCreator
gatk IndelRealigner
gatk BaseRecalibrator
gatk PrintReads
gatk HaplotypeCaller
性能提升
100
80
60
40
20
0
单机
HPC
Hadoop
MaxCompute
规模
•70000+ 作业
•41.5 小时
案例二:视频直播
CDN日志
用户行为日志
Routine 任务
日调度运行
增长平稳
运营人员 Adhoc 查询
TB
总日新增 级
弹性需求强
用户自建 Hadoop 集群
弹性是最大的痛点
• 百台左右规模的 Impala 集群
• 作业均为 SQL,输入数据从 200MB~20GB 不等:
select sum(a.pv) AS pv_a,sum(b.pv) AS pv_b,count(distinct b.uid) AS uv_b
from
(select uid,count(*) AS pv from cdn_log where dt = ‘yyyymmdd group by uid) a
left outer join
(select uid,count(*) AS pv from user_log where dt=‘yyyymmdd group by uid) b
on (a.uid = b.uid);
扩容困难
• 机器采购、上架周期长
• 机房满,扩充机房几乎不可能
• 迁移机房,周期更长
性能对比
• 客户根据自己的使用场景,构造了类似 TPC-DS 的 SQL 测试集
• 用该测试集,对比 MaxCompute 和用户自建的 Impala
• MaxCompute 完成测试集的速度平均是 Impala 的 2.11 倍
混合云
Hadoop 集群
阿里云
DataIDE
Adhoc 查询
CDN日志
DataX
on
Hadoop
Gb 级公网带宽
DataIDE
离线调度
MaxCompute
行为日志
推荐引擎
效果
弹性
节省
• 无计算不付费
• 性能更优,使用成本比竞品便宜2~10倍
• 按需划拨资源,不再担心作业大,作业多
阿里云.数加
方便
扩展
• DataIDE 提供开箱即用的 Web UI,免去用户自行开发
• 方便后续对接用户画像、推荐引擎、机器学习、人工智能
等数据产品
案例涉及的云产品回顾
MaxCompute
• 大数据引擎,高性能 SQL、MR 作业执行能力
DataIDE
• 一站式 Web IDE:作业开发、任务调度、数据、权限管理等
DataX
• 打通多种数据源互通的渠道
征文大
您可能关注的文档
- 厦门侨兴案例介绍.pdf
- 用友离散行业智能工厂2020营销指南网络培训.pdf
- U9条码_智能工厂系列培训.pdf
- 智能工厂-移动条码产品订购.pdf
- Kyligence大数据平台介绍及案例 forHelloBI.pptx
- 懂业务才能真正懂数据.pptx
- 如何提升用户价值.pptx
- 预测分析机器学习篇.pptx
- 自助机监控系统功能介绍.pdf
- 2025国家能源投资集团有限责任公司宁夏工业职业学院毕业生专考前自测高频考点模拟试题最新.docx
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
原创力文档

文档评论(0)