成本性能分析:基于 CPU 的无服务器和基于 GPU 的训练架构的比较研究.pdfVIP

  • 0
  • 0
  • 约2.37万字
  • 约 14页
  • 2026-02-27 发布于北京
  • 举报

成本性能分析:基于 CPU 的无服务器和基于 GPU 的训练架构的比较研究.pdf

成本性能分析:基于CPU的无服务器和基于GPU

的训练架构的比较研究

AmineBarrak,FabioPetrillo,andFehmiJaafar

OaklandUniversity,Rochester,MI,USA

aminebarrak@

Écoledetechnologiesupérieure(ETS),Montréal,Canada

UniversityofQuebecatChicoutimi,Saguenay,Canada

本摘要本文提出了对四个无服务器训练框架的比较评估:SPIRT、MLLess、

译LambdaMLAllReduce和ScatterReduce,以及一个基于GPU的基线,

中使用CNN模型在CIFAR-10上进行。我们在一致的实验条件下评估每个

架构的训练时间、成本、通信开销和准确性。虽然基于GPU的训练实现

1了最快的收敛性和最高的准确性,无服务器框架为轻量级模型提供了成本

v

0优势。优化措施如梯度累积和数据库内计算可以提高无服务器性能。我们

2的研究结果揭示了关键的权衡,并突出了支持GPU的无服务器平台在可

9扩展分布式训练中的潜力。

4

1

9.Keywords:分布式机器学习·无服务器ML架构·成本效益。

0

5

21介绍

:

v

i机器学习(ML)继续通过日益复杂的预测能力改变行业。然而,这些

x

r进步伴随着巨大的计算需求和复杂的基础架构管理,尤其是在训练中等规模

a

模型时[18]。例如,在ImageNet上使用单个NVIDIAGPU训练ResNet-50

大约需要14天[18],这促使了分布式训练方法的采用,以并行化工作负载,

减少训练时间和资源瓶颈[20]。

分布式机器学习架构通常遵循参数服务器(PS)或点对点(P2P)范

式[16]。PS通过协调节点集中化梯度聚合,简化同步过程[9]。相反,P2P

通过在网络中的节点间分布参数和计算来分散训练,缓解中心协调瓶颈问

题[14]。然而,仍然存在一些挑战,包括资源效率低下、运营成本高以及系

统复杂性。

机器学习日益增长的计算需求推动了向基于云的训练解决方案的重大

转变。云平台提供了可扩展的基础架构、成本效益以及对并行训练[12]的集

2A.Barraketal.

成支持。然而,这些优势往往伴随着过度配置和资源浪费等低效率问题。事

实上,据估计,过度配置和始终在线的资源在2021年导致了公共云浪费了

266亿美元[15]。最近的一项调查显示,41.1%的数据科学家认为使用云资

源进行机器学习训练是一个重大挑战,这突显了有效管理此类基础设施的复

杂性[11]。

无服

文档评论(0)

1亿VIP精品文档

相关文档