【摘要】1. 先区分两个概念:多头和多层 Multi-Head Attention 和多层 Transformer Block 不是一回事。 一句话区分: Multi-Head Attention:同一层里,多个 attention head 并行看上下文。 多层 Transformer Block:很多层 阅读全文