从零学习大模型（6）——Transformer 结构家族：从 Encoder 到 Decoder，大模型为何偏爱 “单边设计”？

Wait 5 sec.

Transformer 架构的伟大之处，不仅在于提出了注意力机制，更在于提供了一套 “模块化” 的设计框架 —— 通过组合编码器（Encoder）和解码器（Decoder），可以衍生出多种结构变体。从 BERT 的 “纯编码器” 到 GPT 的 “纯解码器”，从 T5 的 “编码器 - 解码器” 到 LLaMA 的 “前缀解码器”，不同结构的选择直接决定了模型的核心能力。本文将系统解析 Transformer 的四大主流结构（Encoder-only、Decoder-only、Encoder-Decoder、Prefix-Decoder），它们的代表模型、适用任务，以及为何 Decoder-only 能成为大语言模型的 “终极选择”。Transformer 的 “结构基因”：编码器与解码器的核心差异在深入具体结构前，需先明确编码器（Encoder）和解码器（Decoder）的本质区别 —— 这种区别源于它们的核心功能定位。编码器（Encoder）：“读懂” 输入的 “理解专家”编码器的核心任务是将输入文本转化为富含上下文的语义向量。为了实现 “全面理解”，它采用 “双向自注意力”—— 每个词能同时关注前文和后文（如 “他吃了苹果，它很甜” 中，“它” 能同时关注 “苹果” 和 “甜”）。其核心特征体现为双向注意力、输出固定向量和无生成能力。双向注意力意味着无掩码遮挡，可自由捕捉全局关联；输出固定向量是指对输入文本生成 “静态语义表示”（如整个句子的向量）；而无生成能力则表现为仅能处理 “输入→表示” 的转换，无法生成新文本。解码器（Decoder）：“生成” 输出的 “创作专家”解码器的核心任务是基于语义提示生成连贯文本。为了实现 “有序生成”，它采用 “单向自注意力”（又称 “因果注意力”）—— 每个词只能关注前文，不能关注后文（如生成 “他吃了苹果，它” 时，“它” 只能参考 “他”“吃”“苹果”，无法提前看到还未生成的 “甜”）。其核心特征包括单向注意力、自回归生成和生成能力强。单向注意力通过掩码遮挡（未来位置不可见）保证生成顺序；自回归生成表现为逐词输出，下一个词的生成依赖已生成内容；生成能力强则体现在可从少量提示扩展出完整文本。这两种模块就像 “理解” 与 “生成” 的两个基石，不同的组合方式形成了功能各异的模型结构。一、Encoder-only（纯编码器）：专注 “理解” 的文本分析专家Encoder-only 结构仅保留 Transformer 的编码器部分，通过 “双向注意力” 深度挖掘输入文本的语义信息。它的核心能力是 “文本理解”—— 如判断情感、提取实体、回答问题等，但无法生成长文本。核心结构与工作流程Encoder-only 的输入为完整文本序列（如 “人工智能改变世界”）；处理过程是通过 N 层编码器（带双向自注意力）生成每个词的上下文向量；输出则是基于向量进行特定任务（如用 [CLS] 标记的向量做分类，用实体词向量做命名实体识别）。代表模型与适用任务BERT（Bidirectional Encoder Representations from Transformers）的结构为 12 层编码器（基础版），采用双向自注意力。其预训练任务包括掩码语言模型（MLM，随机遮盖部分词让模型预测）和下一句预测（NSP）。适用任务涵盖文本分类（如情感分析、垃圾邮件识别）、命名实体识别（如从新闻中提取 “人名”“地名”）以及问答任务（如 SQuAD 数据集，根据上下文回答问题）。它的优势在于双向注意力让模型对 “歧义词” 的理解更精准（如 “苹果” 在 “吃苹果” 和 “苹果手机” 中的区分）。RoBERTa（Robustly Optimized BERT Pretraining Approach）对 BERT 进行了改进，取消了 NSP 任务，延长了训练时间，增大了批处理量。这使得它在 BERT 基础上提升 1-2% 的理解精度，成为文本理解的 “基准模型”。ELECTRA（Efficiently Learning an Encoder that Classifies Token Replacements Accurately）的创新点在于用 “判别器 – 生成器” 结构，让判别器判断词是否被替换（而非预测原词）。这一创新使训练效率提升 4 倍，小模型也能达到 BERT 级性能。核心局限Encoder-only 结构的核心局限主要有两方面。一方面，它完全没有生成能力，无法生成句子、段落等输出；另一方面，它依赖下游任务微调，预训练后需针对具体任务调整输出层，泛化性较弱。二、Decoder-only（纯解码器）：擅长 “生成” 的文本创作专家Decoder-only 结构仅保留 Transformer 的解码器部分，通过 “单向自注意力”（因果注意力）实现 “自回归生成”。它的核心能力是 “文本生成”—— 从少量提示扩展出连贯内容，是当前大语言模型的主流结构。核心结构与工作流程Decoder-only 的输入为提示文本（如 “写一首关于春天的诗”）；处理时通过 N 层解码器（带单向自注意力）逐词生成；输出过程是每次生成一个词，将其加入输入序列，重复直至生成结束符（如）。代表模型与适用任务GPT 系列（Generative Pre-trained Transformer）的结构从 12 层解码器（GPT-1）发展到 96 层解码器（GPT-4），均采用单向自注意力。其预训练任务为下一词预测（仅通过前文预测下一个词）。适用任务包括文本生成（如写诗、写邮件、写代码）、对话交互（如 ChatGPT，基于对话历史生成回应）以及逻辑推理（如数学题解答、推理小说创作）。它的优势在于自回归生成天然适合长文本，且能通过提示词（Prompt）灵活适配多种任务。LLaMA 系列（Large Language Model Meta AI）的结构包含 7B-70B 参数，采用 ROPE 位置编码和单向自注意力。它对 Transformer 块结构进行了优化（Pre-Norm+SwiGLU 激活），优势是开源可商用，70B 参数模型性能接近 GPT-3，成为开源大模型的 “基准”。PaLM（Pathways Language Model）的结构为 540B 参数，采用 SwiGLU 激活和 RoPE 位置编码。其创新点是通过 “Pathways” 系统实现多任务统一训练，在推理任务（如 GSM8K 数学题）上表现突出。核心优势Decoder-only 结构的核心优势明显。它生成能力极强，可生成数万词的连贯文本（如小说、报告）；零样本泛化能力出色，无需微调，通过提示词即可适配新任务（如 “用中文总结这段话”）；同时结构简洁，仅包含解码器模块，训练和推理效率高于混合结构。三、Encoder-Decoder（编码器 – 解码器）：兼顾 “理解与生成” 的翻译专家Encoder-Decoder 结构保留完整的编码器 – 解码器模块，通过 “编码器理解输入 + 解码器生成输出” 的协作模式工作。它的核心能力是 “条件生成”—— 基于输入文本生成相关输出（如翻译、摘要），是特定生成任务的最佳选择。核心结构与工作流程Encoder-Decoder 的输入为源文本（如 “我爱自然语言处理”）；编码过程是编码器生成源文本的语义向量（双向注意力，全面理解）；解码时解码器通过 “交叉注意力” 参考编码向量，逐词生成目标文本（单向注意力，保证顺序）；最终输出目标文本（如英文翻译 “I love natural language processing”）。代表模型与适用任务T5（Text-to-Text Transfer Transformer）的结构为编码器 + 解码器（各 6 层基础版），采用统一 “文本到文本” 框架。其预训练任务是 Span Corruption（随机遮盖连续片段，让模型预测完整片段）。适用任务包括机器翻译（如中英互译）、文本摘要（如将 1000 字文章浓缩为 200 字）以及文本改写（如将正式文本转为口语化表达）。它的优势是将所有任务统一为 “输入文本→输出文本”，泛化性强（如用 “翻译：中文→英文：我爱你” 提示翻译）。BART（Bidirectional and Auto-Regressive Transformers）的结构基于 BERT 编码器和 GPT 解码器，增加了 “文本损坏 – 修复” 预训练。这使得它在摘要生成任务上表现优异（如 CNN/Daily Mail 数据集 SOTA）。MarianMT 专注于机器翻译任务，支持 100 + 语言对。它针对翻译优化交叉注意力，小模型（600M 参数）即可达到专业翻译水平。核心局限Encoder-Decoder 结构的核心局限在于结构复杂，编码器 + 解码器参数冗余（同参数下比 Decoder-only 训练成本高）；同时泛化性较弱，虽然擅长特定生成任务（如翻译），但在开放对话、创意生成上不如 Decoder-only。四、Prefix-Decoder（前缀解码器）：融合 “理解与生成” 的灵活派Prefix-Decoder 是 Encoder-Decoder 的变体，它取消独立编码器，改用 “前缀部分” 作为 “伪编码器”—— 即解码器的前半部分处理输入（用双向注意力），后半部分生成输出（用单向注意力）。这种结构兼顾理解与生成，且比 Encoder-Decoder 更简洁。核心结构与工作流程Prefix-Decoder 的输入分为 “前缀输入”（如 “总结：” 后的原文）和 “生成提示”（如空序列）。处理过程中，前缀部分由解码器前 N 层用双向注意力（类似编码器，理解输入）处理；生成部分由解码器后 M 层用单向注意力（类似解码器，生成输出）处理；同时生成部分可通过交叉注意力参考前缀部分的语义向量。最终基于生成部分逐词生成结果（如原文的摘要）。代表模型与适用任务UL2（Unified Language Learning Paradigm）的创新点是通过 “前缀提示” 控制注意力模式（双向 / 单向）。其预训练任务包括混合 MLM（双向）、下一词预测（单向）等任务。适用任务有混合任务（如先理解文档，再生成摘要）以及少样本学习（如用少量示例提示模型完成新任务）。Flan-T5 在 T5 基础上增加 “指令微调”，用 Prefix-Decoder 适配指令任务。它在 1800 + 任务上表现优异，是小模型（11B 参数）中性价比最高的选择。核心优势Prefix-Decoder 的核心优势在于结构统一，用单一解码器实现 “理解 + 生成”，参数利用率高于 Encoder-Decoder；同时灵活适配性强，通过前缀控制任务类型（如 “分类：” 前缀触发理解模式，“生成：” 触发生成模式）。为什么大模型都选择 Decoder-only 结构？从 GPT-3 到 GPT-4，从 LLaMA 到 Claude，几乎所有百亿参数以上的大模型都采用 Decoder-only 结构。这种选择并非偶然，而是 “性能、效率、泛化性” 共同作用的结果。1. 生成能力是大模型的核心需求大模型的核心价值在于 “开放域交互”—— 用户需要的不仅是 “分析文本”，更是 “生成邮件、代码、故事” 等创造性输出。而 Decoder-only 的自回归生成机制天然适合这一需求，逐词生成符合人类语言习惯（如说话、写作都是线性输出），且可通过 “提示词工程”（Prompt Engineering）灵活触发各种生成任务（如 “写代码”“讲故事”“做翻译”）。相比之下，Encoder-only 完全无生成能力，Encoder-Decoder 的生成受限于 “输入 – 输出” 绑定（如翻译需严格对应源语言），灵活性远不及 Decoder-only。2. 训练与推理效率更高大模型的核心瓶颈是 “计算成本”（训练一次 GPT-3 级模型成本超千万美元），而 Decoder-only 在效率上有显著优势。参数利用率高，Encoder-Decoder 需维护两套参数（编码器 + 解码器），同参数规模下，Decoder-only 的单一模块能更专注于生成优化；推理速度快，生成时可通过 KVCache 缓存前文计算结果（见前文注意力机制章节），而 Encoder-Decoder 需同时计算编码器和解码器，缓存效率低；并行训练友好，虽然生成时是串行的，但预训练（下一词预测）可通过 “句子级并行” 高效利用 GPU（同时处理多个句子的预测任务）。例如，70B 参数的 LLaMA（Decoder-only）与 70B 参数的 T5（Encoder-Decoder）相比，生成相同长度文本的推理速度快 30%，训练成本低 25%。3. 零样本泛化能力更强大模型的 “魔法” 在于 “零样本学习”—— 无需微调，仅通过自然语言提示即可完成新任务（如 “用日语翻译这段话”）。这种能力源于 Decoder-only 的预训练目标（下一词预测）与生成任务的 “天然对齐”，下一词预测本质是 “基于前文生成后文”，与 “基于提示生成回应” 完全一致；而双向注意力模型（如 BERT）的预训练目标（MLM）与生成任务差异大，必须微调才能生成文本。实验显示：Decoder-only 模型在零样本任务上的表现比同参数 Encoder-Decoder 高 10-20%，且提示词越复杂，优势越明显。4. 长文本处理更自然大模型需要处理万字级长文本（如书籍、报告），而 Decoder-only 的结构更适合长序列。单向注意力的掩码机制简单（仅遮挡未来位置），长序列下计算稳定；可通过 “滚动缓存”（如只保留最近 2048 个词的 KVCache）高效处理超长文本；而 Encoder-Decoder 的编码器需一次性处理全部输入，长文本时内存占用极高。例如，GPT-4 支持 128K 长度文本，而同等参数的 Encoder-Decoder 模型（如 T5-11B）最长仅支持 5K 长度，且推理速度慢 5 倍。例外情况：这些场景仍需要其他结构Decoder-only 并非 “万能解”，在一些场景中，其他结构更有优势。比如文本分类、命名实体识别等 “纯理解任务”，Encoder-only（如 BERT）更高效（小模型即可达到高准确率）；机器翻译、摘要生成等 “强条件生成任务”，Encoder-Decoder（如 T5）更精准（编码器能专注理解输入）；资源受限场景（如手机端），轻量级 Encoder-only 模型（如 DistilBERT）推理速度更快。结语：结构选择的本质是 “任务优先级”Transformer 结构的演进，本质是 “任务需求” 与 “技术限制” 的平衡。Encoder-only 是 “理解优先” 的选择，适合需要深度分析文本的场景；Encoder-Decoder 是 “精准生成优先” 的选择，适合输入输出严格对应的任务；Decoder-only 是 “泛化与效率优先” 的选择，适合开放域、长文本、高创造性的场景。而大模型选择 Decoder-only，核心是因为它满足了 “三大核心需求”：强大的生成能力、高效的训练推理、灵活的零样本泛化。未来，随着计算资源的增长和提示词技术的优化，这种 “单边结构” 可能会持续主导大模型领域 —— 但 Encoder 与 Decoder 的核心设计思想（双向理解与单向生成），仍将是人工智能理解与生成语言的基础。从 BERT 到 GPT，从 “理解” 到 “生成”，Transformer 结构的选择史，也是 AI 从 “文本分析工具” 向 “通用助手” 进化的缩影。本文由 @红岸小兵原创发布于人人都是产品经理。未经作者许可，禁止转载题图来自Unsplash，基于CC0协议该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务