- 1
- 0
- 约4.69千字
- 约 3页
- 2026-04-29 发布于湖北
- 举报
基于流式幂迭代的Muon实现:5.延伸
本系列⽂章的主题是“流式幂迭代”,顾名思义,它由“流式”和“幂迭代”两部分构成,其中“幂迭代”是求矩阵SVD
的⼀种典的多步迭代⽅案,⽽“流式”则是指将原本需要多步迭代的算法平摊到每⼀步训练上,使得计算成本
变得可以接受,其核⼼思想在于:与其⼀次性完成复杂计算,不如在训练过程中持续逼近⽬标。
作为该系列的延伸,本⽂将介绍另外⼀些“流式”思想的应⽤,进⼀步展⽰如何通过流式转化将相对昂贵的操作
巧妙地融⼊训练流程。
正交投影
有些场景下,我们会希望约束些参数矩阵的正交性。正交矩阵具有良好的数值稳定性,可以避免⼀些数值爆
炸或消失问题,同时在些设计中能带来更好的理论保证。当然,哪些地⽅适合约束参数为正交矩阵,我们需
要具体场景具体分析,这⾥不做展开。
在⽂章《流形上的最速下降:2.Muon+正交》和《流形上的最速下降:3.Muon+Stiefel》中,我们对正交(
Stiefel)流形有过⼀些探索,不过那是想着结合最速下降来推导出新的更新规则,整体⽐较复杂。这⾥我们只
考虑⼀种⽐较简单的做法:在每⼀步更新后重新将参数投影(Retract)回正交流形上。
不失⼀般性,我们设参数W∈Rn×m,其中n≥m,那么我们要执⾏的操作可以写成
您可能关注的文档
最近下载
- 中国的世界文化遗产——长城.pdf VIP
- 喇嘛甸油田气库聚障区保压钻井液技术探究.doc VIP
- 2021护理专业普通高职人才培养方案.pdf VIP
- 3×150MW水电站电气一次部分初步设计 —主接线设计及主要设备选型.docx VIP
- 中华人民共和国生态环境法典培训.pptx VIP
- 智慧树知到《创造性思维与创新方法(大连理工大学)》2026第1-5章节测试附答案.docx
- (2026年春新版)人教版三年级英语下册全册教案.docx
- 驾驶员行车安全教育课件.ppt VIP
- 牛津阅读树系列G1B_L28_The_Lost_key【精选ppt课件】.pptx
- (35页PPT)如何成为一名优秀的面试官.ppt VIP
原创力文档

文档评论(0)