基于流式幂迭代的Muon实现:2. 加速(数学研究) .pdfVIP

  • 1
  • 0
  • 约1.03万字
  • 约 6页
  • 2026-04-29 发布于湖北
  • 举报

基于流式幂迭代的Muon实现:2. 加速(数学研究) .pdf

基于流式幂迭代的Muon实现:2.加速

在第⼀篇⽂章《基于流式幂迭代的Muon实现:1.初识》中,笔者将流式幂迭代(StreamingPowerIteration)单独抽象出来,作为⼀种新的Muon实现⽅式。由于

新⽅案是直接对SVD进⾏近似计算,所以相⽐基于Newton-Schulz迭代的标准实现,它具有更丰富的拓展空间,值得继续深⼊研究。

从计算上看,新⽅案的主要变化是Newton-Schulz迭代换成了QR分解,这带来了⼀些降速。上篇我们已讨论了⼀些基本的加速⼿段,但尚未⽐肩标准实现。这篇

⽂章我们继续研究QR的加速,以求尽可能缩⼩差距。

流式迭代

我们将沿⽤第⼀篇⽂章的所有概念和记号,有相关疑惑的读者请先往前翻看⼀下。⾸先,Muon的更新公式是

Mt=βMt−1+Gt

(1)

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档