#AI#paper RMSNorm § 是LayerNorm的简化变体,不减去均值 是可学习的缩放参数 对比 LayerNorm § LayerNorm分母=,跟RMS(x)很像 参考 § 论文 几何上的解释