美团点评GPU计算平台的演进实践
⻩军@数据平台 2018-11
关于我
• 14年 加入美团@数据平台 负责Hadoop YARN/MapReduce
• 15年 Hadoop 多机房架构改造
• 16年 YARN 支撑上万节点改造
• 17年 开拓深度学习的基础设施平台-GPU计算平台
美团点评数据平台介绍
⼤数据+AI基础设施平台
美团点评GPU计算平台现状
集群规模 GPU卡数 训练任务 全业务流程
万级别 千级别 500+/天 覆盖
美团点评GPU计算平台架构
深度学习业务“需求层次”
高级
产品化
如何做平台?
最佳业务实践
借鉴需求
完整流程支持需求
深度学习框架维护需求
基础设施的需求
低级
GPU计算平台演进“三部曲”
01 大数据+AI的统一资源基础设施
02 深度学习训练平台
03 深度学习预测平台
基础设施在深度学习场景的新挑战
1.GPU资源管理 3.环境部署
2.调度策略 4.统⼀调度视图
GPU的资源管理与隔离
• GPU资源维度扩展
• GPU资源隔离
• CUDA_VISIBLE_DEVICES
• CGroup Devices Controller
• GPU资源自动发现
Hadoop 3.x 两个配置开启GPU集群之旅
Hadoop3.x: /docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/UsingGpus.html
Hadoop2.x: /jira/browse/YARN-5517
基于深度学习场景的调度策略 (⼀)
⽀持多级标签
队列级标签
Container级标签
标签调度:解决GPU卡异构调度
基于深度学习场景的调度策略(⼆)
• GPU亲缘性
• 考虑通讯架构
• GPU通信延迟降低60%
• 任务编排
原创力文档

文档评论(0)