对神经网络训练中优化器选择对能效和性能的影响分析.pdfVIP

对神经网络训练中优化器选择对能效和性能的影响分析.pdf

对神经网络训练中优化器选择对能效和性能

的影响分析

TomAlmog

UniversityofWaterloo

Waterloo,Ontario,Canada

Email:talmog@uwaterloo.ca

摘要—随着机器学习模型变得越来越复杂且计算需求越来以往关于机器学习能源效率的研究主要集中在模

越高，了解训练决策的环境影响对于可持续的人工智能发展变得型架构设计[2]或硬件利用[3]上。然而，很少有研究系

至关重要。本文提出了一项全面的经验研究，调查优化器选择与统地考察了优化器选择如何影响不同问题复杂度和数

神经网络训练中的能源效率之间的关系。我们在三个基准数据集

本据集规模下的能耗。现有的有限工作[4]受限于小规模

（MNIST、CIFAR-10、CIFAR-100）上使用了八种流行的

译优化器（SGD、Adam、AdamW、RMSprop、Adagrad、实验或优化器覆盖范围有限。

中Adadelta、Adamax、NAdam），每种优化器使用15个随机种A.贡献

1子，进行了360次控制实验。我们利用CodeCarbon在Apple

vM1Pro硬件上的精确能源跟踪功能，测量了训练时长、峰值内本文在理解优化器选择对能源效率影响方面做出

6存使用量、CO排放量以及最终模型性能。我们的研究发现，在了几个关键贡献：

5不同数据集和模型复杂度下，训练速度、准确性和环境影响之间全面的经验评估:我们展示了在三个不同复杂度的

1存在显著的权衡关系。我们确定AdamW和NAdam为始终高数据集上进行的360次受控实验的结果，使用了八

.效的选项，而SGD在复杂的数据集上表现出色，尽管其排放量

9个流行的优化器，并且每个配置使用了15个随机

0较高。这些结果为寻求平衡机器学习工作流中的性能与可持续性

5的从业者提供了可操作的见解。种子。

2IndexTerms—能效，机器学习，优化器，可持续人工智多维分析:我们考察了优化器选择与多个指标之间

v能，碳排放，深度学习的关系，包括准确性、训练时间、CO排放量、内

x存使用和收敛行为。

aI.介绍

稳健评估:我们每种配置使用15个随机种子以确

机器学习（ML）的快速发展导致了越来越复杂的保结果的可靠性和可重复性，解决了先前工作中的

模型，这些模型在训练过程中需要大量的计算资源。最一项关键限制。

近的研究估计，训练大型语言模型所产生的碳排放量相实用指南:我们为从业者提供了实用的建议，以便

当于数百次横跨大西洋飞行[1]，这引发了对当前机器他们在考虑性能和环境影响的情况下做出明智的优

学习实践环境可持续性的关键问题。随着该领域朝着更化器选择。

负责任的人工智能开发方向发展，理解基础培训决策的可重复的方法论:我们提供了详细的实验方案，并