解密Prompt系列70. 从 MLA 到 CSA，聊聊大模型 Attention 的“瘦身”与“闪送” - 风雨中的小七

Wait 5 sec.

【摘要】这一章我们聊聊这两年注意力架构的技术演化路线- KV Cache 压缩类：MQA → GQA → MLA（每个 token 的 KV 变细）- 推理效率优化类：Flash Attention、Paged Attention（让 GPU 跑得更满）- 长文本优化类：NSA → DSA → CSA... 阅读全文