#AI#paper NTK § Neural Tangent Kernel,神经切线核 “切线”就是指梯度 NTK本质上是两个输入的梯度内积: 核函数告诉我们:如果两个输入 和 的梯度方向很接近,那么更新 的参数时, 的输出也会跟着发生剧烈变化。 论文只是借用NTK概念,引出见解: 保持高频以守住精度,插值低频以扩展长度 YaRN § 原始上下文窗口长为L: 高频(不插值):对于波长远小于L的维度,完全不拉伸。 低频(全插值):对于波长远大于L的维度,按比例拉伸。 中间频(过渡):处于两者之间的维度进行平滑过渡。 修正注意力权重: 使用温度t, 参考 § 论文