软件定义重塑认知时代的HPC.pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件定义 重塑认知时代的HPC 2 © IBM 2018 AI,让HPC无处不在 技术的发展 - 算力 IBM 量子计算机原型 解决高度复杂的计算问题 目前最强大的AI超级计算机 满足AI和HPC的应用需求 IBM 类脑芯片 IBM 最小计算机 低功耗的AI系统 边缘计算和区块链应用 现在 不远的将来 技术的发展 - 算法 Project Debater 思维与决策能力 AI OpenScale 无偏见的人工智能 晶格加密 量子时代的加密算法 IBM DLI 深度学习平台 大幅提高训练速度 现在 不远的将来 技术的发展 - 数据 IBM 新磁带技术 330TB 高密度磁带 IBM 相变存储芯片 比目前闪存快100倍 存储密度提高1000倍以上 IBM 原子级存储技术 Elastic Storage Server TB/s 级的高速高速访问 现在 不远的将来 认知时代,重塑 HPC 数据 洞察 分析 / 模拟仿真 HPC 自动化 (ML/DL) AI 传感器/物联网 新的数据 满足新一代数据驱动的应用需求 推理应用 训练好的模型应用 将训练好的模型部 署到生产环境 几秒 数据准备 数据清洗与预处理 训练 数据集 测试 数据集 几周到 几月 频繁的数据访问 反复迭代 建模与优化 人工智能/深度学习 应用框架 (Tensorflow & Caffe) 训练可视化 分布式的弹性深度学习平台 并行的超参数搜索与优化 监控与 建议 神经网络 模型 超参数 几天到几周 数据收集 传统业务 物联网 与传感器 合作伙伴 移动应用 社交媒体 原有数据 几年 目前面临的主要挑战 人员效率 相关技术人员供不应求,人力 成本水涨船高 数据效率 AI应用的数据量平均是传统型 分析应用的八到十倍 资源效率 GPU和异构集群环境带来的管 理和调度问题 9Days 4 Hours Recognition Shape Attenuation Boundary Recognition Shape Attenuation Boundary 4 Hours 4 Hours 4 Hours 4 Hours . . . . . . . . . . . . . . . 4 Hours 节约的时间可以用于 通过更多次数的迭代,创建更准确的模型 或是创建更多的模型来满足应用的需求 (216 hours) 提高AI模型训练效率和准确率 - Spectrum Conductor Deep Learning Impact Spectrum DLI 深度学习应用平台 DLI 作为深度学习的集成开发环境,支持各种开放的应用 框架,并提供包括数据导入/转换、可视化训练、超参数 优化在内的各种工具来大幅度提高人员效率和模型准确率 大幅度提高数据访问效率和可用性 Spectrum Scale/ESS & Cloud Object Storage 大幅度提高I/O和元数据性能 客户环境实测 2.5TB/s 数据访问带宽 客户环境实测 16GB/s 单节点顺序读写带宽 客户环境实测每秒创建260万个小文件 客户环境实测单目录每秒创建5万个文件 支持混合工作负载 在同一个文件系统中同时支持大、小数据块的应用 提高性能、空间利用率 支持最新的高性能硬件环境,如 NVMe 和云对象存储无缝集成,提供永远在线的数据访问 提供丰富的企业级数据管理功能 SSD Fast Disk Slow Disk Tape POSIX Swift/S3 NFS SMB HDFS Compute farm Client workstations 简化、自动化、智能化的资源管理与调度 Admin Charts Defines Application (Chart) scheduler: lsf resources: mem: 256M cpu: 100m Deploys Application LSF – K8s Scheduler IBM Cloud Private Redhat OpenShift Pending Bsub Reservation Job Deployed LSF Job Host Allocated Query Pending Update host 支持 Docker、Shifter和Singularity等容器环境 作业级的 I/O 计量与调度 基于AI的智能资源使用预测 自动化的作业流程管理 提供高级 GPU 管理与调度功能 elim elim Host A Host B GPU configuration 管理 GPU自配置 GPU状态监控 使用 简化并可配置的提交语法规则 作业级的 GPU 资源需求查询 GPU 作业分配情况查询 通过 DCGM 支持 GPU 故障转移

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档