- 1
- 0
- 约1.19万字
- 约 6页
- 2026-04-29 发布于湖北
- 举报
基于流式幂迭代的Muon实现:1.初识
Muon的核⼼运算是msign,当前标准实现是Newton-Schulz迭代。不得不说,这确实是⼀个⾮常⾼效且GPU友好的算法,Muon能流⾏起来,起码有⼀⼤半是这个
算法的功劳。然⽽,这个算法也给⼈⼀种“只此⼀家,别⽆分号”的感觉,因为它似乎就局限在算msign了,⼀旦我们想要魔改Muon(⽐如msign换成这⾥的mclip)
,那么相应的计算就会变得⿇烦起来。
本⽂出⼀种新的实现思路——通过流式幂迭代(StreamingPowerIteration)来近似计算SVD。这并不是完全新的思路,⽽是已出现之前的⼀些优化器⼯作中,
但这⾥我们将它单独炼出来,作为⼀个独⽴的算法使⽤。
内容回顾
Muon的细节我们就不展开了,⼤家⾃⾏翻看之前的⽂章如《Muon优化器赏析:从向量到矩阵的本质跨越》、《Muon续集:为什么我们选择尝试Muon?》、《Muon
优化器指南:快速上⼿与关键细节》即可,这⾥直接给出它的公式:
Mt=βMt−1+Gt
您可能关注的文档
最近下载
- 2025青海省高校毕业生“三支一扶”计划服务人员招募1950人考试备考试题及答案解析.docx VIP
- 煤矿电子围栏安装示意及说明参考.pdf VIP
- 通达信指标公式源码-六彩神龙源码(超级好用).doc VIP
- (2025年)广东广州市花都区事业单位考试题库公共基础知识真题及答案.docx VIP
- TCL 冰箱BCD-220EZ60使用说明书.pdf
- 核心机房电源系统健康度评估模型及说明241009V3.docx VIP
- 【人教版七下语文】阅读答题模板.pdf VIP
- 琵琶 琵琶能力拓展训练 五重奏《梦》.pptx VIP
- 2025广东广州市花都区部分事业单位招聘事业单位工作人员9人笔试参考题库附答案解析.docx VIP
- 光面爆破技术课件.ppt VIP
原创力文档

文档评论(0)