- 0
- 0
- 约2.37万字
- 约 14页
- 2026-02-27 发布于北京
- 举报
成本性能分析:基于CPU的无服务器和基于GPU
的训练架构的比较研究
AmineBarrak,FabioPetrillo,andFehmiJaafar
OaklandUniversity,Rochester,MI,USA
aminebarrak@
Écoledetechnologiesupérieure(ETS),Montréal,Canada
UniversityofQuebecatChicoutimi,Saguenay,Canada
本摘要本文提出了对四个无服务器训练框架的比较评估:SPIRT、MLLess、
译LambdaMLAllReduce和ScatterReduce,以及一个基于GPU的基线,
中使用CNN模型在CIFAR-10上进行。我们在一致的实验条件下评估每个
架构的训练时间、成本、通信开销和准确性。虽然基于GPU的训练实现
1了最快的收敛性和最高的准确性,无服务器框架为轻量级模型提供了成本
v
0优势。优化措施如梯度累积和数据库内计算可以提高无服务器性能。我们
2的研究结果揭示了关键的权衡,并突出了支持GPU的无服务器平台在可
9扩展分布式训练中的潜力。
4
1
9.Keywords:分布式机器学习·无服务器ML架构·成本效益。
0
5
21介绍
:
v
i机器学习(ML)继续通过日益复杂的预测能力改变行业。然而,这些
x
r进步伴随着巨大的计算需求和复杂的基础架构管理,尤其是在训练中等规模
a
模型时[18]。例如,在ImageNet上使用单个NVIDIAGPU训练ResNet-50
大约需要14天[18],这促使了分布式训练方法的采用,以并行化工作负载,
减少训练时间和资源瓶颈[20]。
分布式机器学习架构通常遵循参数服务器(PS)或点对点(P2P)范
式[16]。PS通过协调节点集中化梯度聚合,简化同步过程[9]。相反,P2P
通过在网络中的节点间分布参数和计算来分散训练,缓解中心协调瓶颈问
题[14]。然而,仍然存在一些挑战,包括资源效率低下、运营成本高以及系
统复杂性。
机器学习日益增长的计算需求推动了向基于云的训练解决方案的重大
转变。云平台提供了可扩展的基础架构、成本效益以及对并行训练[12]的集
2A.Barraketal.
成支持。然而,这些优势往往伴随着过度配置和资源浪费等低效率问题。事
实上,据估计,过度配置和始终在线的资源在2021年导致了公共云浪费了
266亿美元[15]。最近的一项调查显示,41.1%的数据科学家认为使用云资
源进行机器学习训练是一个重大挑战,这突显了有效管理此类基础设施的复
杂性[11]。
无服
您可能关注的文档
- 显式与隐式传记:评估和调整基于 Wikidata 的文本中的 LLM 信息提取.pdf
- 变压器模型在社交机器人检测中的比较分析.pdf
- 计算机辅助设计驱动的飞行准备型喷气动力仿人机器人协同设计.pdf
- 通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdf
- 跨模态知识蒸馏在语音大型语言模型中的应用.pdf
- GenKOL: 模块化生成 AI 框架用于可扩展虚拟 KOL 生成.pdf
- 自解释强化学习在 移动网络资源分配中的应用.pdf
- 返回耳朵:感知驱动的高保真音乐重构.pdf
- 人工智能与市场新进入者游戏开发者.pdf
- 伪标签增强级联框架:LSVOS 2025 VOS 赛道第二次技术报告.pdf
原创力文档

文档评论(0)