从16天至7小时!IBM PowerAI大幅缩短深度学习训练时间.pptx

从16天至7小时!IBM PowerAI大幅缩短深度学习训练时间.pptx

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

从16天至7小时!IBMPowerAI大幅缩短深度学习训练时间

August7,2017|Writtenby:SumitGupta

原文链接:/blogs/systems/scaling-tensorflow-and-caffe-to-256-gpus/

过去四年来,深度学习席卷全球,为上百种日常网络和移动应用提供支持。然而,大多数学习框架所需训练时间极长,这也成为限制更广泛深入学习的障碍。目前可能需要几天甚至几周时间,才能将拥有大数据集的大型AI模型训练至高精度水平。

这一问题的瓶颈在于技术限制。现行开源深度学习框架似乎并不能在多个服务器上高效运行。因此,虽然大部分数据科学家正使用搭载四块或八块图形处理器(GPU)的服务器,但却无法将现有单节点扩展到多节点。例如,当我们尝试使用ResNet-101模型训练拥有ImageNet-22K数据集的模型时,搭载四块NVIDIAP100GPU加速器的单个PowerSystems服务器(S822LCforHPC)要花费16天时间。

16天呀!你本可以做其他更有意义的事情。

而由于模型训练是个迭代任务,数据科学家要不断调整超参数、模型、甚至是输入数据,并需多次训练AI模型。这种长时间训练不仅会延迟客户洞察,还会制约生产力。

IBM研究院发明深度学习超级引擎

IBM研究院接受这一挑战,通过创新的集群方法建立了“分布式深度学习”(DDL)软件库,可集成到TensorFlow、Caffe、Torch和Chainer等现行开源机器学习框架中,将它们扩展到装载数百个GPU的数十台IBM服务器上。

IBM的“分布式深度学习”(DDL)软件库通过搭载256块NVIDIAP100GPU加速器的64个IBMPowerSystems服务器,仅需7小时即可完成使用ResNet-101的ImageNet-22K数据集训练。从漫长的16天到短短的7小时,这大大改进了数据科学家的工作流程,实现了58倍的性能提速!

PoweredByIBM

图1:在64台PowerSystems服务器共计256块NVIDIAP100GPU加速集群上,使用Caffe及ImageNet-1K数据集训练ResNet-50深度学习模型。

PowerAI正迅速发展——PowerAI才发布不到一年,就已经在深度学习套件方面取得极大创新和进步。10个月前,我们发布了第一批成果;今天,我很自豪地宣布PowerAI4.0版本的发布,其中包括分布式深度学习软件库和今年5月宣布的视觉功能的技术预览。PowerAI的视觉功能在针对含标签的视频或图像时,能够提供训练过的深度学习模型。

现在可以通过NimbixPowerCloud来试用新的PowerAI软件:

/powerai或者免费下载并在IBMPowerSystems服务器上安装使用。

IBM最新发行的PowerAI4.0版本现已提供“分布式深度学习”(DDL)软件库的

技术预览版。“分布式深度学习”(DDL)软件库提供一个应用程序编程接口(API),使得每个深度学习框架都可与之集成,并在多个服务器上扩展。PowerAI帮助深度学习的各组织在训练AI模型时实现集群扩展功能。

除了可以跨多个节点运行,“分布式深度学习”(DDL)软件库更可以高效扩展。凭借在高性能计算(HPC)和分析方面的丰富经验,IBM研究院能够将深度学习框架扩展至256块GPU并实现95%的扩展效率!

PoweredByIBM

文档评论(0)

分享使人快乐 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档