- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件定义
重塑认知时代的HPC
2
© IBM
2018
AI,让HPC无处不在
技术的发展 - 算力
IBM 量子计算机原型
解决高度复杂的计算问题
目前最强大的AI超级计算机
满足AI和HPC的应用需求
IBM 类脑芯片
IBM 最小计算机
低功耗的AI系统
边缘计算和区块链应用
现在
不远的将来
技术的发展 - 算法
Project Debater
思维与决策能力
AI OpenScale
无偏见的人工智能
晶格加密
量子时代的加密算法
IBM DLI 深度学习平台
大幅提高训练速度
现在
不远的将来
技术的发展 - 数据
IBM 新磁带技术
330TB 高密度磁带
IBM 相变存储芯片
比目前闪存快100倍
存储密度提高1000倍以上
IBM 原子级存储技术
Elastic Storage Server
TB/s 级的高速高速访问
现在
不远的将来
认知时代,重塑 HPC
数据
洞察
分析 /
模拟仿真
HPC
自动化
(ML/DL)
AI
传感器/物联网
新的数据
满足新一代数据驱动的应用需求
推理应用
训练好的模型应用
将训练好的模型部
署到生产环境
几秒
数据准备
数据清洗与预处理
训练 数据集
测试 数据集
几周到 几月
频繁的数据访问
反复迭代
建模与优化
人工智能/深度学习 应用框架 (Tensorflow Caffe)
训练可视化
分布式的弹性深度学习平台
并行的超参数搜索与优化
监控与 建议
神经网络 模型
超参数
几天到几周
数据收集
传统业务
物联网 与传感器
合作伙伴
移动应用 社交媒体
原有数据
几年
目前面临的主要挑战
人员效率
相关技术人员供不应求,人力
成本水涨船高
数据效率
AI应用的数据量平均是传统型
分析应用的八到十倍
资源效率
GPU和异构集群环境带来的管 理和调度问题
9Days
4 Hours
Recognition
Shape
Attenuation
Boundary
Recognition
Shape
Attenuation
Boundary
4 Hours
4 Hours
4 Hours
4 Hours
. . . . . . . . .
. . . . . .
4 Hours
节约的时间可以用于
通过更多次数的迭代,创建更准确的模型 或是创建更多的模型来满足应用的需求
(216 hours)
提高AI模型训练效率和准确率
- Spectrum Conductor Deep Learning Impact
Spectrum DLI 深度学习应用平台
DLI 作为深度学习的集成开发环境,支持各种开放的应用 框架,并提供包括数据导入/转换、可视化训练、超参数 优化在内的各种工具来大幅度提高人员效率和模型准确率
大幅度提高数据访问效率和可用性
Spectrum Scale/ESS Cloud Object Storage
大幅度提高I/O和元数据性能
客户环境实测 2.5TB/s 数据访问带宽
客户环境实测 16GB/s 单节点顺序读写带宽
客户环境实测每秒创建260万个小文件
客户环境实测单目录每秒创建5万个文件
支持混合工作负载
在同一个文件系统中同时支持大、小数据块的应用
提高性能、空间利用率
支持最新的高性能硬件环境,如 NVMe
和云对象存储无缝集成,提供永远在线的数据访问
提供丰富的企业级数据管理功能
SSD
Fast Disk
Slow Disk
Tape
POSIX
Swift/S3
NFS
SMB
HDFS
Compute farm
Client workstations
简化、自动化、智能化的资源管理与调度
Admin
Charts
Defines Application (Chart)
scheduler: lsf
resources:
mem: 256M
cpu: 100m
Deploys Application
LSF – K8s Scheduler
IBM Cloud Private Redhat OpenShift
Pending
Bsub
Reservation
Job
Deployed
LSF
Job Host Allocated
Query
Pending
Update host
支持 Docker、Shifter和Singularity等容器环境
作业级的 I/O 计量与调度
基于AI的智能资源使用预测
自动化的作业流程管理
提供高级 GPU 管理与调度功能
elim
elim
Host A
Host B
GPU configuration
管理
GPU自配置
GPU状态监控
使用
简化并可配置的提交语法规则
作业级的 GPU 资源需求查询
GPU 作业分配情况查询
通过 DCGM 支持 GPU 故障转移
报
文档评论(0)