MuP之上:4. 坚守参数的稳定性(数学研究) .pdfVIP

  • 0
  • 0
  • 约1.35万字
  • 约 6页
  • 2026-04-29 发布于湖北
  • 举报

MuP之上:4. 坚守参数的稳定性(数学研究) .pdf

MuP之上:4.坚守参数的稳定性

通过前⼏篇⽂章的推导和计算,我们可以发现,第⼀篇《MuP之上:1.好模型的三个特征》所的三个稳定性

指标通常可以分为“参数稳定性”和“增量稳定性”两部分,⽽在《MuP之上:2.线性层与最速下降》和《MuP之

上:3.特殊情况特殊处理》中,我们演⽰了将增量稳定性与最速下降结合来获得新的更新规则(优化器)的过

程.

然⽽,对于参数稳定性,我们之前只是停留在初始化上。这篇⽂章的任务,正是探讨如何在整个训练过程中维

持参数的稳定性,将理论的实践补充完整。

问题背景

以《MuP之上:2.线性层与最速下降》为例,三个稳定性指标分别是:

−−−−

前向稳定性:max∥xW∥RMS=√in∥W∥2(1)

∥x∥=1out

RMS

文档评论(0)

1亿VIP精品文档

相关文档