- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件定义
重塑认知时代的HPC
2
© IBM
2018
AI,让HPC无处不在
技术的发展 - 算力
IBM 量子计算机原型
解决高度复杂的计算问题
目前最强大的AI超级计算机
满足AI和HPC的应用需求
IBM 类脑芯片
IBM 最小计算机
低功耗的AI系统
边缘计算和区块链应用
现在
不远的将来
技术的发展 - 算法
Project Debater
思维与决策能力
AI OpenScale
无偏见的人工智能
晶格加密
量子时代的加密算法
IBM DLI 深度学习平台
大幅提高训练速度
现在
不远的将来
技术的发展 - 数据
IBM 新磁带技术
330TB 高密度磁带
IBM 相变存储芯片
比目前闪存快100倍
存储密度提高1000倍以上
IBM 原子级存储技术
Elastic Storage Server
TB/s 级的高速高速访问
现在
不远的将来
认知时代,重塑 HPC
数据
洞察
分析 /
模拟仿真
HPC
自动化
(ML/DL)
AI
传感器/物联网
新的数据
满足新一代数据驱动的应用需求
推理应用
训练好的模型应用
将训练好的模型部
署到生产环境
几秒
数据准备
数据清洗与预处理
训练 数据集
测试 数据集
几周到 几月
频繁的数据访问
反复迭代
建模与优化
人工智能/深度学习 应用框架 (Tensorflow & Caffe)
训练可视化
分布式的弹性深度学习平台
并行的超参数搜索与优化
监控与 建议
神经网络 模型
超参数
几天到几周
数据收集
传统业务
物联网 与传感器
合作伙伴
移动应用 社交媒体
原有数据
几年
目前面临的主要挑战
人员效率
相关技术人员供不应求,人力
成本水涨船高
数据效率
AI应用的数据量平均是传统型
分析应用的八到十倍
资源效率
GPU和异构集群环境带来的管 理和调度问题
9Days
4 Hours
Recognition
Shape
Attenuation
Boundary
Recognition
Shape
Attenuation
Boundary
4 Hours
4 Hours
4 Hours
4 Hours
. . . . . . . . .
. . . . . .
4 Hours
节约的时间可以用于
通过更多次数的迭代,创建更准确的模型 或是创建更多的模型来满足应用的需求
(216 hours)
提高AI模型训练效率和准确率
- Spectrum Conductor Deep Learning Impact
Spectrum DLI 深度学习应用平台
DLI 作为深度学习的集成开发环境,支持各种开放的应用 框架,并提供包括数据导入/转换、可视化训练、超参数 优化在内的各种工具来大幅度提高人员效率和模型准确率
大幅度提高数据访问效率和可用性
Spectrum Scale/ESS & Cloud Object Storage
大幅度提高I/O和元数据性能
客户环境实测 2.5TB/s 数据访问带宽
客户环境实测 16GB/s 单节点顺序读写带宽
客户环境实测每秒创建260万个小文件
客户环境实测单目录每秒创建5万个文件
支持混合工作负载
在同一个文件系统中同时支持大、小数据块的应用
提高性能、空间利用率
支持最新的高性能硬件环境,如 NVMe
和云对象存储无缝集成,提供永远在线的数据访问
提供丰富的企业级数据管理功能
SSD
Fast Disk
Slow Disk
Tape
POSIX
Swift/S3
NFS
SMB
HDFS
Compute farm
Client workstations
简化、自动化、智能化的资源管理与调度
Admin
Charts
Defines Application (Chart)
scheduler: lsf
resources:
mem: 256M
cpu: 100m
Deploys Application
LSF – K8s Scheduler
IBM Cloud Private Redhat OpenShift
Pending
Bsub
Reservation
Job
Deployed
LSF
Job Host Allocated
Query
Pending
Update host
支持 Docker、Shifter和Singularity等容器环境
作业级的 I/O 计量与调度
基于AI的智能资源使用预测
自动化的作业流程管理
提供高级 GPU 管理与调度功能
elim
elim
Host A
Host B
GPU configuration
管理
GPU自配置
GPU状态监控
使用
简化并可配置的提交语法规则
作业级的 GPU 资源需求查询
GPU 作业分配情况查询
通过 DCGM 支持 GPU 故障转移
文档评论(0)