#AI#deepseek

DSA:Deepseek Sparse Attention 解决长上下文时,计算量和显存占用与长度平方成正比的问题。

将注意力的复杂度从降至,其中k(L)。

闪电索引器

  • :当前token t对历史token s的关注度
  • :索引器的头数,每个头负责寻找不同的特征
  • 头j的权重
  • :当前token t的低维量化
  • :历史token s的低维量化

  • 量化+ReLU,保证了快速计算。
  • 在量化前施加旋转(FWHT,Fast Walsh-Hadamard Transform),让离群值分散到各坐标。 ref

选择top-k

算完,选择top-k历史tokens,将对应键值搬进共享内存。

将数据从流式多处理器SM片外的全局内存 —搬进-> SM片上的共享内存

参考