微调LLM前你需要了解的一些概念2--多头注意力机制 - royalrover

Wait 5 sec.

【摘要】1. 先区分两个概念:多头和多层 Multi-Head Attention 和多层 Transformer Block 不是一回事。 一句话区分: Multi-Head Attention:同一层里,多个 attention head 并行看上下文。 多层 Transformer Block:很多层 阅读全文