上下文工程：大语言模型的新范式

Wait 5 sec.

大语言模型不止靠参数“大”，更靠“上下文”聪明。本文系统性拆解上下文工程的设计逻辑与调用策略，从提示构造、状态保持到信息注入，揭示当下LLM开发正从模型调参，走向“上下文编排”的工程新范式。论文导读：《A Survey of Context Engineering for Large Language Models》（大型语言模型上下文工程综述）是一篇非常全面的学术论文，提出【上下文工程】这一全新的概念来统一我们与AI交互的各种高级方法。本文将为你拆解这篇论文的结构，并用通俗易懂的方式把它“教”给你，希望可以从中获得启发，帮我们更好的构建设计自己的AI产品。总结一下，这篇论文对AI产品经理的整体启发是：我们的角色正在从一个“功能设计师”演变为一个“AI系统架构师”和“信息生态的构建者”。需要用更宏观、更系统的视角去思考产品的形态、价值和边界，交付物将从“需求文档”扩展为包含上下文策略、处理规范和多维度评估体系的“产品白皮书”。核心思想：从“提示工程”到“上下文工程”你可能很熟悉“提示词工程”（Prompt Engineering）。你可以给大模型下达一个具体的指令。比如：“请帮我总结一下这份报告。”但这篇论文说，我们现在与AI的交互已经远远超出了“下达一个指令”的范畴。我们不再只是给AI一个简单的文本提示，而是为它构建了一个完整的信息生态系统。举个例子：1）提示工程：给实习生一张写着任务的便条。2）上下文工程：为这位实习生配备一个完整的办公室！这包括：一个图书馆（外部知识库，比如维基百科或公司内部文档）。一部可以随时上网的手机（外部工具，比如搜索引擎、计算器）。一个记忆笔记本（长期和短期记忆系统）。一本工作手册（系统指令和规则）。甚至一个可以协同工作的团队（其他AI智能体）。“上下文工程”（Context Engineering）就是这篇论文提出的核心概念：它是一门研究如何系统性地设计、管理和优化所有这些提供给AI的“信息装备”，从而让AI发挥出最大潜能的正式学科。论文的整体结构：四步走这篇论文把“上下文工程”分成了四个主要部分，循序渐进：第一部分：基础组件 (Foundational Components) – AI办公室里的“基础设备”是什么，以及如何准备它们。第二部分：系统实现 (System Implementations) – 如何把这些基础设备组装成强大的“高级工作站”。第三部分：评估 (Evaluation) – 如何衡量这位装备齐全的“超级实习生”工作得好不好。第四部分：未来方向 (Future Directions) – 这门科学未来会遇到哪些挑战，又有哪些激动人心的可能性。第一部分：基础组件 (The Building Blocks)这一部分是上下文工程的基石，它探讨了我们为AI准备信息时要做的三件核心事情：获取信息、处理信息、管理信息。1. 上下文的检索与生成 (Context Retrieval and Generation) – “寻找和准备材料”这是第一步，确保AI有正确的材料来完成任务。它包括三个方面：提示工程与上下文生成：这是我们最熟悉的领域，即如何写出清晰、有效的指令。论文提到了一些高级技巧，比如“思维链”（Chain-of-Thought），就是教AI像人一样“一步一步地思考”，而不是直接给出答案。后来还发展出了更复杂的“思维树”（Tree-of-Thoughts）和“思维图”（Graph-of-Thoughts），让AI能够探索多种推理路径，就像画思维导图一样。外部知识检索：AI模型内部的知识是有限的，而且可能过时。这一步就是让AI能够从外部获取最新的、特定的知识。最核心的技术叫做检索增强生成(RAG)，你可以理解为AI在回答问题前，先去一个巨大的数据库（比如百度百科）里搜索相关的资料，然后结合这些资料来生成答案。动态上下文组装：把上面获取到的所有信息（指令、外部知识、用户问题等）巧妙地组合在一起，形成一个最终的、最优化的“信息包”喂给AI。2. 上下文处理 (Context Processing) – “编辑和整理材料”拿到了原始材料后，还需要进行处理，让它们更容易被AI理解和使用。长上下文处理：AI的“注意力”是有限的，一次能处理的信息长度（即“上下文窗口”）有限。当面对一本很厚的书或一份超长的报告时，AI很容易“读到后面忘了前面”，这被称为“迷失在中间”现象(lost-in-the-middle)。这个领域的研究就是为了解决这个问题，比如通过架构创新或优化注意力机制，让AI能处理上百万字的超长文本。上下文自我优化和适应：让AI变得更“聪明”，能够自己检查和修改自己的答案。比如“Self-Refine”框架，就是让AI生成答案后，自己扮演批评家的角色，提出修改意见，然后再根据意见进行修改，如此循环，直到答案变得更好。多模态及结构化上下文：除了纯文本，AI还需要理解图片、音频、视频，甚至是表格和知识图谱这样的结构化数据。这个部分就是研究如何将这些不同类型的信息转换并整合到AI的上下文中。3. 上下文管理 (Context Management) – “归档和压缩材料”AI的“办公桌”（上下文窗口）是有限的，所以必须高效地管理信息。基本约束：首先要认识到AI有“上下文窗口大小”这个根本限制，它既影响性能，也带来巨大的计算成本。记忆层次与存储架构：为AI建立像电脑一样的记忆系统，分为快速读取但容量小的“短期记忆”（在上下文窗口内）和容量大但读取稍慢的“长期记忆”（存储在外部数据库中）。上下文压缩：顾名思义，就是把信息“压缩”一下，用更少的文字表达同样多的信息，这样就能在有限的“办公桌”上放下更多东西。第二部分：系统实现 (System Implementations)学习了基础组件后，这一部分将展示如何将它们组装成先进的AI系统，真正解决现实世界的问题。1. 检索增强生成系统 (RAG) – “为AI配一个超级图书馆”这是最主流的应用之一，核心是连接外部知识。模块化RAG：把RAG系统设计得像乐高积木一样，可以灵活地替换和组合不同的检索、生成模块，以适应不同任务。智能体RAG(AgenticRAG)：这是一种更高级的RAG。普通的RAG是被动地“先搜后答”，而AgenticRAG中的AI会像一个侦探一样，主动思考“我需要什么信息？”、“我应该去哪里搜？”，然后自主地执行检索操作。图增强RAG：使用“知识图谱”这种网络状的结构化知识来代替纯文本数据库。这样做的好处是信息之间的关联性更强，AI可以进行更复杂的“多跳推理”，比如从“A认识B”和“B认识C”推断出A和C的间接关系。2. 记忆系统 (Memory Systems) – “为AI装上大脑”这个系统致力于解决AI“健忘”的问题，让它能记住过去的对话和经验。通过构建短期和长期记忆机制，AI可以进行持续性的、个性化的互动，而不会在每次对话时都像一个“失忆的陌生人”。3. 工具集成推理 (Tool-Integrated Reasoning) – “为AI配一个工具箱”这让AI不再只是一个“聊天机器人”，而是一个可以与世界互动的“行动者”。函数调用 (Function Calling)：这是实现工具集成的核心机制。AI可以生成一段特定格式的指令（比如JSON），来调用外部的应用程序接口（API），比如查询天气、订机票、控制智能家居等。这标志着AI从一个“文本生成器”向一个“世界交互器”的转变。4. 多智能体系统 (Multi-Agent Systems) – “为AI组建一个团队”这是目前最前沿、最复杂的系统。它不是让一个AI单打独斗，而是让多个拥有不同专长和角色的AI智能体协同工作，解决单个AI无法完成的复杂任务。通信协议：为了让AI们能够有效沟通，需要制定一套统一的“语言”和“规则”，就像人类开会需要遵循议程一样。编排机制(Orchestration)：需要一个“项目经理”角色的AI来分解任务、分配工作、协调进度，确保整个团队高效运作。第三部分：评估 (Evaluation)有了这些强大的系统，我们如何客观地评价它的好坏？这是一个巨大的挑战。传统的AI评估指标（如准确率）已经不够用了。评估的复杂性：我们需要评估的不再是单一任务的成败，而是整个系统的推理过程、工具使用是否合理、记忆是否准确、团队协作是否高效。新的评估基准：论文提到了一系列新的、更贴近现实世界的评估基准（Benchmarks），比如WebArena（评估AI操作网页的能力）、GAIA（评估通用AI助手的能力）等。性能差距：评估结果显示，尽管这些系统很强大，但在许多真实世界的复杂任务上，它们与人类的表现仍有巨大差距。第四部分：未来方向与结论最后，论文展望了未来，并指出了一个核心的、根本性的挑战。最大的挑战：理解与生成的不对称性 (Comprehension-Generation Asymmetry)这是整篇论文最深刻的洞见之一，论文指出，当前的AI模型，在先进的上下文工程加持下，理解复杂信息的能力非常强（比如读懂一份上千页的财报），但生成同样复杂的长篇输出的能力却非常有限（比如让它自己写一份上千页的、逻辑严密、事实准确的财报）。这个“理解强，生成弱”的不对称性，是未来研究需要攻克的关键难题。结论“上下文工程”将AI研究的焦点从简单地“设计提示词”转向了系统性地“设计信息后勤系统”。它提供了一个统一的框架，帮助我们理解和构建下一代更强大、更可靠、更能解决实际问题的AI系统。启发未来AI产品经理的工作，将从传统的“功能设计”系统性地转向“上下文生态设计”。这篇论文可以被看作是下一代AI产品经理的“工作手册”。核心职责的转变：从定义“功能”到定义“上下文”过去，PM定义的是“用户点击这个按钮会发生什么”。现在，PM的核心工作之一是定义AI完成任务所需的完整“信息装备”。定义上下文的构成要素：PM需要像设计产品功能列表一样，设计产品的“上下文清单” 。这包括：系统指令：产品的核心定位、行为准则和个性是什么？外部知识：产品需要连接哪些数据库或知识库？是需要实时新闻，还是公司内部的保密文档？可用工具：产品需要具备哪些“超能力”？是需要调用计算器、搜索引擎，还是接入公司内部的审批API？记忆：产品需要“记住”用户多久？是仅限于单次对话的短期记忆，还是需要跨越数周乃至数月的长期个性化记忆？这对用户体验至关重要。动态状态：产品需要感知哪些动态变化？比如用户的情绪状态、团队协作衡量标准的重塑：从“功能可用”到“系统可靠”论文用整整一章（第6章）来探讨“评估”（Evaluation）的复杂性，这对PM如何定义产品成功至关重要。定义更复杂的KPIs：过去，PM可能只关心功能的点击率或任务成功率。现在，需要定义更深层次的、面向过程的指标。论文指出，评估需要深入到组件层面和系统层面。例如：检索质量：RAG系统检索到的信息相关性、准确性如何？工具使用效率：AI是否在最合适的时机调用了最合适的工具？记忆保真度：AI的长期记忆是否会出错或“遗忘”关键信息？协作效率：在多智能体系统中，AI之间的沟通成本和协作效果如何我们的角色正在从一个“功能设计师”演变为一个“AI系统架构师”和“信息生态的构建者”。需要用更宏观、更系统的视角去思考产品的形态、价值和边界，交付物将从“需求文档”扩展为包含上下文策略、处理规范和多维度评估体系的“产品白皮书”。本文由 @Mrs.Data 原创发布于人人都是产品经理。未经作者许可，禁止转载题图来自Unsplash，基于CC0协议该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务