基于流式幂迭代的Muon实现:初识.pdfVIP

  • 1
  • 0
  • 约1.19万字
  • 约 6页
  • 2026-04-29 发布于湖北
  • 举报

基于流式幂迭代的Muon实现:1.初识

Muon的核⼼运算是msign,当前标准实现是Newton-Schulz迭代。不得不说,这确实是⼀个⾮常⾼效且GPU友好的算法,Muon能流⾏起来,起码有⼀⼤半是这个

算法的功劳。然⽽,这个算法也给⼈⼀种“只此⼀家,别⽆分号”的感觉,因为它似乎就局限在算msign了,⼀旦我们想要魔改Muon(⽐如msign换成这⾥的mclip)

,那么相应的计算就会变得⿇烦起来。

本⽂出⼀种新的实现思路——通过流式幂迭代(StreamingPowerIteration)来近似计算SVD。这并不是完全新的思路,⽽是已出现之前的⼀些优化器⼯作中,

但这⾥我们将它单独炼出来,作为⼀个独⽴的算法使⽤。

内容回顾

Muon的细节我们就不展开了,⼤家⾃⾏翻看之前的⽂章如《Muon优化器赏析:从向量到矩阵的本质跨越》、《Muon续集:为什么我们选择尝试Muon?》、《Muon

优化器指南:快速上⼿与关键细节》即可,这⾥直接给出它的公式:

Mt=βMt−1+Gt

文档评论(0)

1亿VIP精品文档

相关文档