#AI#paper

NTK

Neural Tangent Kernel,神经切线核 “切线”就是指梯度

NTK本质上是两个输入的梯度内积: 核函数告诉我们:如果两个输入 的梯度方向很接近,那么更新 的参数时, 的输出也会跟着发生剧烈变化。

论文只是借用NTK概念,引出见解: 保持高频以守住精度,插值低频以扩展长度

YaRN

原始上下文窗口长为L:

  • 高频(不插值):对于波长远小于L的维度,完全不拉伸。
  • 低频(全插值):对于波长远大于L的维度,按比例拉伸。
  • 中间频(过渡):处于两者之间的维度进行平滑过渡。

修正注意力权重: 使用温度t,

参考