阿里云弹性人工智能-LFAsiaLLC
阿里云弹性人工智能
阿里云平台上深度优化分布式训练性能
游亮(昀龙)
弹性 AI 服务 – Elastic AI Service
• 基于阿里云弹性基础资源 ,为用户提供深度性能优化的、
一站式的、开源开放的人工智能解决方案
弹性AI服务(EAIS )
开源AI解决方案
图像/视频识别 CTR预估 语音识别
高性能AI 引擎
E-HPC Docker
Slurm/PBS Swam/Kebernetes
EMR 弹性计算 共享存储
异构计算服务 + 超级计算集群 对象存储
Hadoop OSS
CPU GPU VPC RDMA
HDFS/D1 计算 网络 文件存储
NAS/CPFS
阿里云弹性异构计算服务
• EGS Elastic GPU Service
• FaaS FPGA as a Service
• 异构计算
– CPU + GPU/FPGA优势互补
• 云上大规模GPU/FPGA池
– 短时间能够获取大量GPU/FPGA资源
– 有效解决业务波峰、波谷的问题
– 大大降低训练时间 ,提高模型迭代速度
• 享受硬件升级的红利
• 和其他云产品深度整合
阿里云超级计算集群SCC
2x25Gb(100Gb )
RDMA 低延迟网络
2x25G
VPC 虚拟网络
云盘存储网络
神龙 神龙 神龙 神龙 神龙
云服务器 云服务器 云服务器 云服务器 云服务器 ……
节点 节点 节点 节点 节点
• 虚机的弹性 + 物理机的性能
• 支持2x25Gb(100Gb) RoCE RDMA网络
• 支持GPU Direct RDMA
• 适合大规模深度学习训练
推荐算法I
• 逻辑回归算法
• 浅层模型
• 需要大量特征工程
• Sigmoid作为激活函数
• Sigmoid交叉熵作为损失函数
• 梯度下降作为优化器
推荐算法II
• Deep Auto Encoder[Hinton, 2011]
• 把请求Q和
原创力文档

文档评论(0)