从零学习大模型(6)——Transformer 结构家族:从 Encoder 到 Decoder,大模型为何偏爱 “单边设计”?

Wait 5 sec.

Transformer 架构的伟大之处,不仅在于提出了注意力机制,更在于提供了一套 “模块化” 的设计框架 —— 通过组合编码器(Encoder)和解码器(Decoder),可以衍生出多种结构变体。从 BERT 的 “纯编码器” 到 GPT 的 “纯解码器”,从 T5 的 “编码器 - 解码器” 到 LLaMA 的 “前缀解码器”,不同结构的选择直接决定了模型的核心能力。本文将系统解析 Transformer 的四大主流结构(Encoder-only、Decoder-only、Encoder-Decoder、Prefix-Decoder),它们的代表模型、适用任务,以及为何 Decoder-only 能成为大语言模型的 “终极选择”。Transformer 的 “结构基因”:编码器与解码器的核心差异在深入具体结构前,需先明确编码器(Encoder)和解码器(Decoder)的本质区别 —— 这种区别源于它们的核心功能定位。编码器(Encoder):“读懂” 输入的 “理解专家”编码器的核心任务是将输入文本转化为富含上下文的语义向量。为了实现 “全面理解”,它采用 “双向自注意力”—— 每个词能同时关注前文和后文(如 “他吃了苹果,它很甜” 中,“它” 能同时关注 “苹果” 和 “甜”)。其核心特征体现为双向注意力、输出固定向量和无生成能力。双向注意力意味着无掩码遮挡,可自由捕捉全局关联;输出固定向量是指对输入文本生成 “静态语义表示”(如整个句子的向量);而无生成能力则表现为仅能处理 “输入→表示” 的转换,无法生成新文本。解码器(Decoder):“生成” 输出的 “创作专家”解码器的核心任务是基于语义提示生成连贯文本。为了实现 “有序生成”,它采用 “单向自注意力”(又称 “因果注意力”)—— 每个词只能关注前文,不能关注后文(如生成 “他吃了苹果,它” 时,“它” 只能参考 “他”“吃”“苹果”,无法提前看到还未生成的 “甜”)。其核心特征包括单向注意力、自回归生成和生成能力强。单向注意力通过掩码遮挡(未来位置不可见)保证生成顺序;自回归生成表现为逐词输出,下一个词的生成依赖已生成内容;生成能力强则体现在可从少量提示扩展出完整文本。这两种模块就像 “理解” 与 “生成” 的两个基石,不同的组合方式形成了功能各异的模型结构。一、Encoder-only(纯编码器):专注 “理解” 的文本分析专家Encoder-only 结构仅保留 Transformer 的编码器部分,通过 “双向注意力” 深度挖掘输入文本的语义信息。它的核心能力是 “文本理解”—— 如判断情感、提取实体、回答问题等,但无法生成长文本。核心结构与工作流程Encoder-only 的输入为完整文本序列(如 “人工智能改变世界”);处理过程是通过 N 层编码器(带双向自注意力)生成每个词的上下文向量;输出则是基于向量进行特定任务(如用 [CLS] 标记的向量做分类,用实体词向量做命名实体识别)。代表模型与适用任务BERT(Bidirectional Encoder Representations from Transformers)的结构为 12 层编码器(基础版),采用双向自注意力。其预训练任务包括掩码语言模型(MLM,随机遮盖部分词让模型预测)和下一句预测(NSP)。适用任务涵盖文本分类(如情感分析、垃圾邮件识别)、命名实体识别(如从新闻中提取 “人名”“地名”)以及问答任务(如 SQuAD 数据集,根据上下文回答问题)。它的优势在于双向注意力让模型对 “歧义词” 的理解更精准(如 “苹果” 在 “吃苹果” 和 “苹果手机” 中的区分)。RoBERTa(Robustly Optimized BERT Pretraining Approach)对 BERT 进行了改进,取消了 NSP 任务,延长了训练时间,增大了批处理量。这使得它在 BERT 基础上提升 1-2% 的理解精度,成为文本理解的 “基准模型”。ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)的创新点在于用 “判别器 – 生成器” 结构,让判别器判断词是否被替换(而非预测原词)。这一创新使训练效率提升 4 倍,小模型也能达到 BERT 级性能。核心局限Encoder-only 结构的核心局限主要有两方面。一方面,它完全没有生成能力,无法生成句子、段落等输出;另一方面,它依赖下游任务微调,预训练后需针对具体任务调整输出层,泛化性较弱。二、Decoder-only(纯解码器):擅长 “生成” 的文本创作专家Decoder-only 结构仅保留 Transformer 的解码器部分,通过 “单向自注意力”(因果注意力)实现 “自回归生成”。它的核心能力是 “文本生成”—— 从少量提示扩展出连贯内容,是当前大语言模型的主流结构。核心结构与工作流程Decoder-only 的输入为提示文本(如 “写一首关于春天的诗”);处理时通过 N 层解码器(带单向自注意力)逐词生成;输出过程是每次生成一个词,将其加入输入序列,重复直至生成结束符(如)。代表模型与适用任务GPT 系列(Generative Pre-trained Transformer)的结构从 12 层解码器(GPT-1)发展到 96 层解码器(GPT-4),均采用单向自注意力。其预训练任务为下一词预测(仅通过前文预测下一个词)。适用任务包括文本生成(如写诗、写邮件、写代码)、对话交互(如 ChatGPT,基于对话历史生成回应)以及逻辑推理(如数学题解答、推理小说创作)。它的优势在于自回归生成天然适合长文本,且能通过提示词(Prompt)灵活适配多种任务。LLaMA 系列(Large Language Model Meta AI)的结构包含 7B-70B 参数,采用 ROPE 位置编码和单向自注意力。它对 Transformer 块结构进行了优化(Pre-Norm+SwiGLU 激活),优势是开源可商用,70B 参数模型性能接近 GPT-3,成为开源大模型的 “基准”。PaLM(Pathways Language Model)的结构为 540B 参数,采用 SwiGLU 激活和 RoPE 位置编码。其创新点是通过 “Pathways” 系统实现多任务统一训练,在推理任务(如 GSM8K 数学题)上表现突出。核心优势Decoder-only 结构的核心优势明显。它生成能力极强,可生成数万词的连贯文本(如小说、报告);零样本泛化能力出色,无需微调,通过提示词即可适配新任务(如 “用中文总结这段话”);同时结构简洁,仅包含解码器模块,训练和推理效率高于混合结构。三、Encoder-Decoder(编码器 – 解码器):兼顾 “理解与生成” 的翻译专家Encoder-Decoder 结构保留完整的编码器 – 解码器模块,通过 “编码器理解输入 + 解码器生成输出” 的协作模式工作。它的核心能力是 “条件生成”—— 基于输入文本生成相关输出(如翻译、摘要),是特定生成任务的最佳选择。核心结构与工作流程Encoder-Decoder 的输入为源文本(如 “我爱自然语言处理”);编码过程是编码器生成源文本的语义向量(双向注意力,全面理解);解码时解码器通过 “交叉注意力” 参考编码向量,逐词生成目标文本(单向注意力,保证顺序);最终输出目标文本(如英文翻译 “I love natural language processing”)。代表模型与适用任务T5(Text-to-Text Transfer Transformer)的结构为编码器 + 解码器(各 6 层基础版),采用统一 “文本到文本” 框架。其预训练任务是 Span Corruption(随机遮盖连续片段,让模型预测完整片段)。适用任务包括机器翻译(如中英互译)、文本摘要(如将 1000 字文章浓缩为 200 字)以及文本改写(如将正式文本转为口语化表达)。它的优势是将所有任务统一为 “输入文本→输出文本”,泛化性强(如用 “翻译:中文→英文:我爱你” 提示翻译)。BART(Bidirectional and Auto-Regressive Transformers)的结构基于 BERT 编码器和 GPT 解码器,增加了 “文本损坏 – 修复” 预训练。这使得它在摘要生成任务上表现优异(如 CNN/Daily Mail 数据集 SOTA)。MarianMT 专注于机器翻译任务,支持 100 + 语言对。它针对翻译优化交叉注意力,小模型(600M 参数)即可达到专业翻译水平。核心局限Encoder-Decoder 结构的核心局限在于结构复杂,编码器 + 解码器参数冗余(同参数下比 Decoder-only 训练成本高);同时泛化性较弱,虽然擅长特定生成任务(如翻译),但在开放对话、创意生成上不如 Decoder-only。四、Prefix-Decoder(前缀解码器):融合 “理解与生成” 的灵活派Prefix-Decoder 是 Encoder-Decoder 的变体,它取消独立编码器,改用 “前缀部分” 作为 “伪编码器”—— 即解码器的前半部分处理输入(用双向注意力),后半部分生成输出(用单向注意力)。这种结构兼顾理解与生成,且比 Encoder-Decoder 更简洁。核心结构与工作流程Prefix-Decoder 的输入分为 “前缀输入”(如 “总结:” 后的原文)和 “生成提示”(如空序列)。处理过程中,前缀部分由解码器前 N 层用双向注意力(类似编码器,理解输入)处理;生成部分由解码器后 M 层用单向注意力(类似解码器,生成输出)处理;同时生成部分可通过交叉注意力参考前缀部分的语义向量。最终基于生成部分逐词生成结果(如原文的摘要)。代表模型与适用任务UL2(Unified Language Learning Paradigm)的创新点是通过 “前缀提示” 控制注意力模式(双向 / 单向)。其预训练任务包括混合 MLM(双向)、下一词预测(单向)等任务。适用任务有混合任务(如先理解文档,再生成摘要)以及少样本学习(如用少量示例提示模型完成新任务)。Flan-T5 在 T5 基础上增加 “指令微调”,用 Prefix-Decoder 适配指令任务。它在 1800 + 任务上表现优异,是小模型(11B 参数)中性价比最高的选择。核心优势Prefix-Decoder 的核心优势在于结构统一,用单一解码器实现 “理解 + 生成”,参数利用率高于 Encoder-Decoder;同时灵活适配性强,通过前缀控制任务类型(如 “分类:” 前缀触发理解模式,“生成:” 触发生成模式)。为什么大模型都选择 Decoder-only 结构?从 GPT-3 到 GPT-4,从 LLaMA 到 Claude,几乎所有百亿参数以上的大模型都采用 Decoder-only 结构。这种选择并非偶然,而是 “性能、效率、泛化性” 共同作用的结果。1. 生成能力是大模型的核心需求大模型的核心价值在于 “开放域交互”—— 用户需要的不仅是 “分析文本”,更是 “生成邮件、代码、故事” 等创造性输出。而 Decoder-only 的自回归生成机制天然适合这一需求,逐词生成符合人类语言习惯(如说话、写作都是线性输出),且可通过 “提示词工程”(Prompt Engineering)灵活触发各种生成任务(如 “写代码”“讲故事”“做翻译”)。相比之下,Encoder-only 完全无生成能力,Encoder-Decoder 的生成受限于 “输入 – 输出” 绑定(如翻译需严格对应源语言),灵活性远不及 Decoder-only。2. 训练与推理效率更高大模型的核心瓶颈是 “计算成本”(训练一次 GPT-3 级模型成本超千万美元),而 Decoder-only 在效率上有显著优势。参数利用率高,Encoder-Decoder 需维护两套参数(编码器 + 解码器),同参数规模下,Decoder-only 的单一模块能更专注于生成优化;推理速度快,生成时可通过 KVCache 缓存前文计算结果(见前文注意力机制章节),而 Encoder-Decoder 需同时计算编码器和解码器,缓存效率低;并行训练友好,虽然生成时是串行的,但预训练(下一词预测)可通过 “句子级并行” 高效利用 GPU(同时处理多个句子的预测任务)。例如,70B 参数的 LLaMA(Decoder-only)与 70B 参数的 T5(Encoder-Decoder)相比,生成相同长度文本的推理速度快 30%,训练成本低 25%。3. 零样本泛化能力更强大模型的 “魔法” 在于 “零样本学习”—— 无需微调,仅通过自然语言提示即可完成新任务(如 “用日语翻译这段话”)。这种能力源于 Decoder-only 的预训练目标(下一词预测)与生成任务的 “天然对齐”,下一词预测本质是 “基于前文生成后文”,与 “基于提示生成回应” 完全一致;而双向注意力模型(如 BERT)的预训练目标(MLM)与生成任务差异大,必须微调才能生成文本。实验显示:Decoder-only 模型在零样本任务上的表现比同参数 Encoder-Decoder 高 10-20%,且提示词越复杂,优势越明显。4. 长文本处理更自然大模型需要处理万字级长文本(如书籍、报告),而 Decoder-only 的结构更适合长序列。单向注意力的掩码机制简单(仅遮挡未来位置),长序列下计算稳定;可通过 “滚动缓存”(如只保留最近 2048 个词的 KVCache)高效处理超长文本;而 Encoder-Decoder 的编码器需一次性处理全部输入,长文本时内存占用极高。例如,GPT-4 支持 128K 长度文本,而同等参数的 Encoder-Decoder 模型(如 T5-11B)最长仅支持 5K 长度,且推理速度慢 5 倍。例外情况:这些场景仍需要其他结构Decoder-only 并非 “万能解”,在一些场景中,其他结构更有优势。比如文本分类、命名实体识别等 “纯理解任务”,Encoder-only(如 BERT)更高效(小模型即可达到高准确率);机器翻译、摘要生成等 “强条件生成任务”,Encoder-Decoder(如 T5)更精准(编码器能专注理解输入);资源受限场景(如手机端),轻量级 Encoder-only 模型(如 DistilBERT)推理速度更快。结语:结构选择的本质是 “任务优先级”Transformer 结构的演进,本质是 “任务需求” 与 “技术限制” 的平衡。Encoder-only 是 “理解优先” 的选择,适合需要深度分析文本的场景;Encoder-Decoder 是 “精准生成优先” 的选择,适合输入输出严格对应的任务;Decoder-only 是 “泛化与效率优先” 的选择,适合开放域、长文本、高创造性的场景。而大模型选择 Decoder-only,核心是因为它满足了 “三大核心需求”:强大的生成能力、高效的训练推理、灵活的零样本泛化。未来,随着计算资源的增长和提示词技术的优化,这种 “单边结构” 可能会持续主导大模型领域 —— 但 Encoder 与 Decoder 的核心设计思想(双向理解与单向生成),仍将是人工智能理解与生成语言的基础。从 BERT 到 GPT,从 “理解” 到 “生成”,Transformer 结构的选择史,也是 AI 从 “文本分析工具” 向 “通用助手” 进化的缩影。本文由 @红岸小兵 原创发布于人人都是产品经理。未经作者许可,禁止转载题图来自Unsplash,基于CC0协议该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务