从16天至7小时！IBM PowerAI大幅缩短深度学习训练时间.pptx

下载文档

0
0
约1.63千字
约 2页
2024-08-01 发布于北京
举报
版权申诉
保障服务

从16天至7小时！IBM PowerAI大幅缩短深度学习训练时间.pptx

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

从16天至7小时！IBMPowerAI大幅缩短深度学习训练时间

August7,2017|Writtenby:SumitGupta

原文链接：/blogs/systems/scaling-tensorflow-and-caffe-to-256-gpus/

过去四年来，深度学习席卷全球，为上百种日常网络和移动应用提供支持。然而，大多数学习框架所需训练时间极长，这也成为限制更广泛深入学习的障碍。目前可能需要几天甚至几周时间，才能将拥有大数据集的大型AI模型训练至高精度水平。

这一问题的瓶颈在于技术限制。现行开源深度学习框架似乎并不能在多个服务器上高效运行。因此，虽然大部分数据科学家正使用搭载四块或八块图形处理器（GPU）的服务器，但却无法将现有单节点扩展到多节点。例如，当我们尝试使用ResNet-101模型训练拥有ImageNet-22K数据集的模型时，搭载四块NVIDIAP100GPU加速器的单个PowerSystems服务器（S822LCforHPC）要花费16天时间。

16天呀！你本可以做其他更有意义的事情。

而由于模型训练是个迭代任务，数据科学家要不断调整超参数、模型、甚至是输入数据，并需多次训练AI模型。这种长时间训练不仅会延迟客户洞察，还会制约生产力。

IBM研究院发明深度学习超级引擎

IBM研究院接受这一挑战，通过创新的集群方法建立了“分布式深度学习”(DDL)软件库，可集成到TensorFlow、Caffe、Torch和Chainer等现行开源机器学习框架中，将它们扩展到装载数百个GPU的数十台IBM服务器上。

IBM的“分布式深度学习”(DDL)软件库通过搭载256块NVIDIAP100GPU加速器的64个IBMPowerSystems服务器，仅需7小时即可完成使用ResNet-101的ImageNet-22K数据集训练。从漫长的16天到短短的7小时，这大大改进了数据科学家的工作流程，实现了58倍的性能提速！

PoweredByIBM

图1：在64台PowerSystems服务器共计256块NVIDIAP100GPU加速集群上，使用Caffe及ImageNet-1K数据集训练ResNet-50深度学习模型。

PowerAI正迅速发展——PowerAI才发布不到一年，就已经在深度学习套件方面取得极大创新和进步。10个月前，我们发布了第一批成果；今天，我很自豪地宣布PowerAI4.0版本的发布，其中包括分布式深度学习软件库和今年5月宣布的视觉功能的技术预览。PowerAI的视觉功能在针对含标签的视频或图像时，能够提供训练过的深度学习模型。

现在可以通过NimbixPowerCloud来试用新的PowerAI软件：

/powerai或者免费下载并在IBMPowerSystems服务器上安装使用。

IBM最新发行的PowerAI4.0版本现已提供“分布式深度学习”(DDL)软件库的

技术预览版。“分布式深度学习”(DDL)软件库提供一个应用程序编程接口(API)，使得每个深度学习框架都可与之集成，并在多个服务器上扩展。PowerAI帮助深度学习的各组织在训练AI模型时实现集群扩展功能。

除了可以跨多个节点运行，“分布式深度学习”(DDL)软件库更可以高效扩展。凭借在高性能计算（HPC）和分析方面的丰富经验，IBM研究院能够将深度学习框架扩展至256块GPU并实现95%的扩展效率！

PoweredByIBM

您可能关注的文档

文档评论（0）

分享使人快乐 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

从16天至7小时！IBM PowerAI大幅缩短深度学习训练时间.pptx