深度学习进阶（三十一）FlashAttention：IO 感知的精确注意力 - 哥布林学者

Wait 5 sec.

【摘要】上一篇我们把现代大模型的五个核心模块拼回了 LLaMA 这个完整案例中，可以看到注意力机制仍然是计算最密集的部分。而这个密集程度在序列变长时，会变得越来越恐怖：标准自注意力的计算复杂度和空间复杂度都是 \(O(n^2)\)：序列长度翻倍，计算量翻四倍，内存占用也翻四倍。而在之前，我们用 KV 阅读全文