【摘要】这一章我们聊聊这两年注意力架构的技术演化路线- KV Cache 压缩类:MQA → GQA → MLA(每个 token 的 KV 变细)- 推理效率优化类:Flash Attention、Paged Attention(让 GPU 跑得更满)- 长文本优化类:NSA → DSA → CSA... 阅读全文