深度学习进阶（二十九）现代 LLM 的核心架构设计其四：GQA - 哥布林学者

Wait 5 sec.

【摘要】上一篇我们介绍了 KV Cache：它把每一步重复的 K、V 计算存进缓存，让自回归推理的计算量骤降。但这个加速不是没有代价的。KV Cache 的大小正比于多项参数，因此又反过来推动了注意力结构本身的改进。这便是本篇内容：分组查询注意力（Grouped-Query Attention，GQA）阅读全文