#AI#paper

RMSNorm

是LayerNorm的简化变体,不减去均值

  • 是可学习的缩放参数

对比 LayerNorm

  • LayerNorm分母=,跟RMS(x)很像

参考