- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
阿里云HPC加速人工智能的发展-Nvidia
阿里云HPC加速人工智能的发展
游亮(昀龙)
Alibaba Cloud Confidential
大纲
• 阿里云HPC介绍
• 阿里巴巴集团深度学习实践
• 阿里云HPC深度学习实践
Alibaba Cloud Confidential
大纲
• 阿里云HPC介绍
• 阿里巴巴集团深度学习实践
• 阿里云HPC深度学习实践
Alibaba Cloud Confidential
阿里云HPC介绍
• 中国首个推出公共云上的HPC产品
• 中国首个推出云上Maxwell架构的Tesla GPU,单节点单精度计算能力超过16Tflops
• 阿里云HPC特点
• 持续高性能,无性能损失,无功能损失,云产品互通,弹性
• 阿里云HPC团队
• 集团内客户GPU集群建设、客服服务和应用优化
• 公共云上HPC运营、客户服务和应用优化
• 异构云平台预研
• 致力于满足深度学习用户的高性能计算需求
• 初创型新兴用户:随着人工智能市场的蓬勃发展,创业企业如雨后春笋般涌现出
来,他们对高性能计算的需求非常强烈
• 互联网企业也加入深度学习的浪潮,对高性能计算的需求与日俱增
• 传统GPU用户+ 深度学习:渲染(虚拟现实)、游戏、图形图像处理、视频处理
• 传统HPC用户+ 深度学习:气象、医疗图像处理、计算金融、碰撞模拟、流体力
学、基因测序等
Alibaba Cloud Confidential
大纲
• 阿里云HPC介绍
• 阿里巴巴集团深度学习实践
• 阿里云HPC深度学习实践
Alibaba Cloud Confidential
大纲
• 阿里云HPC介绍
• 阿里巴巴集团深度学习实践
• 阿里云HPC深度学习实践
Alibaba Cloud Confidential
阿里深度学习业务场景
• 商品分类
• 商品风格预测
• 商品质量控制
• 拍照购
• 反黄
• 人脸识别
• 图像搜索
• OCR
• ICDAR Robust
Reading top1
• 语音识别
• 阿里小Ai
Alibaba Cloud Confidential
阿里深度学习集群
• 业务
• 大规模深度学习训练
• 在线、离线预测
• 建设统一化资源管理、调度、监控
• 规模: 上千片K40/ M40 GPU,Infiniband网络
• 资源调度系统
• 弹性: docker容器服务
• 多租户隔离
• 部署自动化训练、预测服务
• 部署针对特定GPU架构的深度学习优化实现
Alibaba Cloud Confidential
阿里深度学习集群-资源调度系统
• 调度系统特点
• 可灵活配置
• 支持docker容器调度
• 任务迁移
• 轻量高性能
• 控制节点主备
Alibaba Cloud Confidential
深度学习性能优化
• 系统层面
• 多机多卡训练优化
• 预测的吞吐量优化
• 通信优化 (MPI overlap、Direct RDMA)
• 针对GPU优化
• CUDA Kernel优化
• Multi-stream优化
• PTX、Nati
文档评论(0)