深度学习进阶(三十一)FlashAttention:IO 感知的精确注意力 - 哥布林学者

Wait 5 sec.

【摘要】上一篇我们把现代大模型的五个核心模块拼回了 LLaMA 这个完整案例中,可以看到注意力机制仍然是计算最密集的部分。 而这个密集程度在序列变长时,会变得越来越恐怖: 标准自注意力的计算复杂度和空间复杂度都是 \(O(n^2)\):序列长度翻倍,计算量翻四倍,内存占用也翻四倍。 而在之前,我们用 KV 阅读全文