🧠 Brain

Search

❯

01 读书笔记@AI

❯

❯

DSA

May 14, 2026, 3 min read

DSA：Deepseek Sparse Attention 解决长上下文时，计算量和显存占用与长度平方成正比的问题。

将注意力的复杂度从降至，其中k(L)。

闪电索引器

：当前token t对历史token s的关注度
：索引器的头数，每个头负责寻找不同的特征
：头j的权重
：当前token t的低维量化
：历史token s的低维量化

量化+ReLU，保证了快速计算。
在量化前施加旋转（FWHT，Fast Walsh-Hadamard Transform），让离群值分散到各坐标。 ref

选择top-k

算完，选择top-k历史tokens，将对应键值搬进共享内存。

将数据从流式多处理器SM片外的全局内存 —搬进-> SM片上的共享内存

参考

论文

Graph View

闪电索引器
选择top-k
参考

Backlinks

No backlinks found

Created with Quartz v4.1.4, © 2026