深度学习进阶（四）Transformer 整体结构 - 哥布林学者

Wait 5 sec.

【摘要】在上一篇中，我们已经完整展开了 Transformer Block 的内部结构，包括多头注意力、残差连接、LayerNorm 以及 FFN。至此，就可以正式进入 Transformer 的整体结构了。在原论文中，Transformer 本身仍是 Encoder–Decoder 架构，其中编码器的阅读全文