#AI#paper#optim 将梯度更新的方向正交化

像传统 SGD 一样维护一个一阶动量 ,对这个动量矩阵 进行正交化处理。使用Newton-Schulz 迭代:。通过几次迭代,让更新矩阵变得近似正交。

只对 Transformer 的中间权重矩阵(二维矩阵)使用 Muon,而对 Embedding 层和一维的参数(如 LayerNorm 的偏移量)仍然使用 AdamW。

参考