软件定义重塑认知时代的HPC.pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件定义 重塑认知时代的HPC 2 © IBM 2018 AI,让HPC无处不在 技术的发展 - 算力 IBM 量子计算机原型 解决高度复杂的计算问题 目前最强大的AI超级计算机 满足AI和HPC的应用需求 IBM 类脑芯片 IBM 最小计算机 低功耗的AI系统 边缘计算和区块链应用 现在 不远的将来 技术的发展 - 算法 Project Debater 思维与决策能力 AI OpenScale 无偏见的人工智能 晶格加密 量子时代的加密算法 IBM DLI 深度学习平台 大幅提高训练速度 现在 不远的将来 技术的发展 - 数据 IBM 新磁带技术 330TB 高密度磁带 IBM 相变存储芯片 比目前闪存快100倍 存储密度提高1000倍以上 IBM 原子级存储技术 Elastic Storage Server TB/s 级的高速高速访问 现在 不远的将来 认知时代,重塑 HPC 数据 洞察 分析 / 模拟仿真 HPC 自动化 (ML/DL) AI 传感器/物联网 新的数据 满足新一代数据驱动的应用需求 推理应用 训练好的模型应用 将训练好的模型部 署到生产环境 几秒 数据准备 数据清洗与预处理 训练 数据集 测试 数据集 几周到 几月 频繁的数据访问 反复迭代 建模与优化 人工智能/深度学习 应用框架 (Tensorflow Caffe) 训练可视化 分布式的弹性深度学习平台 并行的超参数搜索与优化 监控与 建议 神经网络 模型 超参数 几天到几周 数据收集 传统业务 物联网 与传感器 合作伙伴 移动应用 社交媒体 原有数据 几年 目前面临的主要挑战 人员效率 相关技术人员供不应求,人力 成本水涨船高 数据效率 AI应用的数据量平均是传统型 分析应用的八到十倍 资源效率 GPU和异构集群环境带来的管 理和调度问题 9Days 4 Hours Recognition Shape Attenuation Boundary Recognition Shape Attenuation Boundary 4 Hours 4 Hours 4 Hours 4 Hours . . . . . . . . . . . . . . . 4 Hours 节约的时间可以用于 通过更多次数的迭代,创建更准确的模型 或是创建更多的模型来满足应用的需求 (216 hours) 提高AI模型训练效率和准确率 - Spectrum Conductor Deep Learning Impact Spectrum DLI 深度学习应用平台 DLI 作为深度学习的集成开发环境,支持各种开放的应用 框架,并提供包括数据导入/转换、可视化训练、超参数 优化在内的各种工具来大幅度提高人员效率和模型准确率 大幅度提高数据访问效率和可用性 Spectrum Scale/ESS Cloud Object Storage 大幅度提高I/O和元数据性能 客户环境实测 2.5TB/s 数据访问带宽 客户环境实测 16GB/s 单节点顺序读写带宽 客户环境实测每秒创建260万个小文件 客户环境实测单目录每秒创建5万个文件 支持混合工作负载 在同一个文件系统中同时支持大、小数据块的应用 提高性能、空间利用率 支持最新的高性能硬件环境,如 NVMe 和云对象存储无缝集成,提供永远在线的数据访问 提供丰富的企业级数据管理功能 SSD Fast Disk Slow Disk Tape POSIX Swift/S3 NFS SMB HDFS Compute farm Client workstations 简化、自动化、智能化的资源管理与调度 Admin Charts Defines Application (Chart) scheduler: lsf resources: mem: 256M cpu: 100m Deploys Application LSF – K8s Scheduler IBM Cloud Private Redhat OpenShift Pending Bsub Reservation Job Deployed LSF Job Host Allocated Query Pending Update host 支持 Docker、Shifter和Singularity等容器环境 作业级的 I/O 计量与调度 基于AI的智能资源使用预测 自动化的作业流程管理 提供高级 GPU 管理与调度功能 elim elim Host A Host B GPU configuration 管理 GPU自配置 GPU状态监控 使用 简化并可配置的提交语法规则 作业级的 GPU 资源需求查询 GPU 作业分配情况查询 通过 DCGM 支持 GPU 故障转移 报

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档