【摘要】上一篇我们介绍了 KV Cache:它把每一步重复的 K、V 计算存进缓存,让自回归推理的计算量骤降。 但这个加速不是没有代价的。KV Cache 的大小正比于多项参数,因此又反过来推动了注意力结构本身的改进。 这便是本篇内容:分组查询注意力(Grouped-Query Attention,GQA) 阅读全文