深度学习进阶(二)多头自注意力机制(Multi-Head Attention) - 哥布林学者

Wait 5 sec.

【摘要】在第一篇中,我们已经得到了自注意力的核心公式: \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) 阅读全文