深度学习进阶（二）多头自注意力机制（Multi-Head Attention） - 哥布林学者

Wait 5 sec.

【摘要】在第一篇中，我们已经得到了自注意力的核心公式： \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) 阅读全文