基于流式幂迭代的Muon实现:3. 雕琢(数学研究) .pdfVIP

  • 1
  • 0
  • 约1.33万字
  • 约 6页
  • 2026-04-29 发布于湖北
  • 举报

基于流式幂迭代的Muon实现:3. 雕琢(数学研究) .pdf

基于流式幂迭代的Muon实现:3.雕琢

回顾前两篇⽂章《基于流式幂迭代的Muon实现:1.初识》和《基于流式幂迭代的Muon实现:2.加速》,我们引⼊了Muon的流式幂迭代(StreamingPowerIteratio

n)实现⽅案,初步验证了它的可⾏性,并进⼀步讨论了核⼼运算——QR分解——的加速,使其接近Newton-Schulz迭代实现的效率。

在这篇⽂章中,我们不再局限于优化单步的QR分解,⽽是从更整体的视⻆看待流式幂迭代,并结合具体的计算背景,对其实现细节做进⼀步的“精雕细琢”,尽可能

减少计算瓶颈,使其效率趋近理论极限。

现有结果

流式幂迭代本质上是“边训练边SVD”,它的想法是通过幂迭代来求SVD,并通过缓存上⼀步的结果,将计算平摊到每⼀步训练上,使得在优化器中嵌⼊SVD成为可能

。⾄于Muon,只不过是它的⼀个基本应⽤,因为Muon的核⼼运算msign最基本的实现⽅式就是SVD。具体来说,Muon的更新公式是

Mt=βMt−1+Gt

文档评论(0)

1亿VIP精品文档

相关文档