基于流式幂迭代的Muon实现:5. 延伸(数学研究) .pdfVIP

  • 1
  • 0
  • 约4.69千字
  • 约 3页
  • 2026-04-29 发布于湖北
  • 举报

基于流式幂迭代的Muon实现:5. 延伸(数学研究) .pdf

基于流式幂迭代的Muon实现:5.延伸

本系列⽂章的主题是“流式幂迭代”,顾名思义,它由“流式”和“幂迭代”两部分构成,其中“幂迭代”是求矩阵SVD

的⼀种典的多步迭代⽅案,⽽“流式”则是指将原本需要多步迭代的算法平摊到每⼀步训练上,使得计算成本

变得可以接受,其核⼼思想在于:与其⼀次性完成复杂计算,不如在训练过程中持续逼近⽬标。

作为该系列的延伸,本⽂将介绍另外⼀些“流式”思想的应⽤,进⼀步展⽰如何通过流式转化将相对昂贵的操作

巧妙地融⼊训练流程。

正交投影

有些场景下,我们会希望约束些参数矩阵的正交性。正交矩阵具有良好的数值稳定性,可以避免⼀些数值爆

炸或消失问题,同时在些设计中能带来更好的理论保证。当然,哪些地⽅适合约束参数为正交矩阵,我们需

要具体场景具体分析,这⾥不做展开。

在⽂章《流形上的最速下降:2.Muon+正交》和《流形上的最速下降:3.Muon+Stiefel》中,我们对正交(

Stiefel)流形有过⼀些探索,不过那是想着结合最速下降来推导出新的更新规则,整体⽐较复杂。这⾥我们只

考虑⼀种⽐较简单的做法:在每⼀步更新后重新将参数投影(Retract)回正交流形上。

不失⼀般性,我们设参数W∈Rn×m,其中n≥m,那么我们要执⾏的操作可以写成

文档评论(0)

1亿VIP精品文档

相关文档