美团点评GPU计算平台的演进实践-2018GTCChina演讲-黄军.key.PDF

美团点评GPU计算平台的演进实践-2018GTCChina演讲-黄军.key.PDF

美团点评GPU计算平台的演进实践 ⻩军@数据平台 2018-11 关于我 • 14年 加入美团@数据平台 负责Hadoop YARN/MapReduce • 15年 Hadoop 多机房架构改造 • 16年 YARN 支撑上万节点改造 • 17年 开拓深度学习的基础设施平台-GPU计算平台 美团点评数据平台介绍 ⼤数据+AI基础设施平台 美团点评GPU计算平台现状 集群规模 GPU卡数 训练任务 全业务流程 万级别 千级别 500+/天 覆盖 美团点评GPU计算平台架构 深度学习业务“需求层次” 高级 产品化 如何做平台? 最佳业务实践 借鉴需求 完整流程支持需求 深度学习框架维护需求 基础设施的需求 低级 GPU计算平台演进“三部曲” 01 大数据+AI的统一资源基础设施 02 深度学习训练平台 03 深度学习预测平台 基础设施在深度学习场景的新挑战 1.GPU资源管理 3.环境部署 2.调度策略 4.统⼀调度视图 GPU的资源管理与隔离 • GPU资源维度扩展 • GPU资源隔离 • CUDA_VISIBLE_DEVICES • CGroup Devices Controller • GPU资源自动发现 Hadoop 3.x 两个配置开启GPU集群之旅 Hadoop3.x: /docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/UsingGpus.html Hadoop2.x: /jira/browse/YARN-5517 基于深度学习场景的调度策略 (⼀) ⽀持多级标签 队列级标签 Container级标签 标签调度:解决GPU卡异构调度 基于深度学习场景的调度策略(⼆) • GPU亲缘性 • 考虑通讯架构 • GPU通信延迟降低60% • 任务编排

文档评论(0)

1亿VIP精品文档

相关文档