- 0
- 0
- 约1.35万字
- 约 6页
- 2026-04-29 发布于湖北
- 举报
MuP之上:4.坚守参数的稳定性
通过前⼏篇⽂章的推导和计算,我们可以发现,第⼀篇《MuP之上:1.好模型的三个特征》所的三个稳定性
指标通常可以分为“参数稳定性”和“增量稳定性”两部分,⽽在《MuP之上:2.线性层与最速下降》和《MuP之
上:3.特殊情况特殊处理》中,我们演⽰了将增量稳定性与最速下降结合来获得新的更新规则(优化器)的过
程.
然⽽,对于参数稳定性,我们之前只是停留在初始化上。这篇⽂章的任务,正是探讨如何在整个训练过程中维
持参数的稳定性,将理论的实践补充完整。
问题背景
以《MuP之上:2.线性层与最速下降》为例,三个稳定性指标分别是:
−−−−
前向稳定性:max∥xW∥RMS=√in∥W∥2(1)
∥x∥=1out
RMS
您可能关注的文档
- 基于流式幂迭代的Muon实现:2. 加速(数学研究) .pdf
- 基于流式幂迭代的Muon实现:3. 雕琢(数学研究) .pdf
- 基于流式幂迭代的Muon实现:4. 原理(数学研究) .pdf
- 基于流式幂迭代的Muon实现:5. 延伸(数学研究) .pdf
- 中位数(Median)简介(数学研究).pdf
- 切割机器人系列编程:Trotec Speedy 360_(13).案例分析与实操演练.docx
- 切割机器人系列编程:Trotec Speedy 360all.docx
- 5.19.1 生物的无性生殖(教学课件)生物新教材苏教版八年级下册.ppt
- 隔震技术在混凝土结构中的应用研究.pptx
- 汉坦病毒科学预防核心措施课件.pptx
最近下载
- 在线监测管理制度(3篇).docx
- 高空作业车工作臂设计及有限元分析设计说明书.doc
- 汽车离合器设计_很全.doc VIP
- (汇川培训.ppt VIP
- 2024-2015年乳制品(中证Ⅳ)行业均值、偿债、营运、盈利、发展、现金流能力均值.doc
- 《桥式起重机主体结构部分的设计及主梁和端梁的校核计算》-毕业设计论文(学术).doc VIP
- 基于SpringBoot的仓库管理系统的设计与实现.docx VIP
- 2025年上海市中考英语试题卷(含答案).docx
- 专职消防员考试100题.docx VIP
- 2.4石油资源与国家安全 课件 湖南省长郡中学2021-2022学年高二下学期地理湘教版(2019)选择性必修3.pptx VIP
原创力文档

文档评论(0)