大语言模型不止靠参数“大”,更靠“上下文”聪明。本文系统性拆解上下文工程的设计逻辑与调用策略,从提示构造、状态保持到信息注入,揭示当下LLM开发正从模型调参,走向“上下文编排”的工程新范式。论文导读:《A Survey of Context Engineering for Large Language Models》(大型语言模型上下文工程综述)是一篇非常全面的学术论文,提出【上下文工程】这一全新的概念来统一我们与AI交互的各种高级方法。本文将为你拆解这篇论文的结构,并用通俗易懂的方式把它“教”给你,希望可以从中获得启发,帮我们更好的构建设计自己的AI产品。总结一下,这篇论文对AI产品经理的整体启发是:我们的角色正在从一个“功能设计师”演变为一个“AI系统架构师”和“信息生态的构建者”。需要用更宏观、更系统的视角去思考产品的形态、价值和边界,交付物将从“需求文档”扩展为包含上下文策略、处理规范和多维度评估体系的“产品白皮书”。核心思想:从“提示工程”到“上下文工程”你可能很熟悉“提示词工程”(Prompt Engineering)。你可以给大模型下达一个具体的指令。比如:“请帮我总结一下这份报告。”但这篇论文说,我们现在与AI的交互已经远远超出了“下达一个指令”的范畴。我们不再只是给AI一个简单的文本提示,而是为它构建了一个完整的信息生态系统。举个例子:1)提示工程:给实习生一张写着任务的便条。2)上下文工程:为这位实习生配备一个完整的办公室!这包括:一个图书馆(外部知识库,比如维基百科或公司内部文档)。一部可以随时上网的手机(外部工具,比如搜索引擎、计算器)。一个记忆笔记本(长期和短期记忆系统)。一本工作手册(系统指令和规则)。甚至一个可以协同工作的团队(其他AI智能体)。“上下文工程”(Context Engineering) 就是这篇论文提出的核心概念:它是一门研究如何系统性地设计、管理和优化所有这些提供给AI的“信息装备”,从而让AI发挥出最大潜能的正式学科。论文的整体结构:四步走这篇论文把“上下文工程”分成了四个主要部分,循序渐进:第一部分:基础组件 (Foundational Components) – AI办公室里的“基础设备”是什么,以及如何准备它们。第二部分:系统实现 (System Implementations) – 如何把这些基础设备组装成强大的“高级工作站”。第三部分:评估 (Evaluation) – 如何衡量这位装备齐全的“超级实习生”工作得好不好。第四部分:未来方向 (Future Directions) – 这门科学未来会遇到哪些挑战,又有哪些激动人心的可能性。第一部分:基础组件 (The Building Blocks)这一部分是上下文工程的基石,它探讨了我们为AI准备信息时要做的三件核心事情:获取信息、处理信息、管理信息。1. 上下文的检索与生成 (Context Retrieval and Generation) – “寻找和准备材料”这是第一步,确保AI有正确的材料来完成任务。它包括三个方面:提示工程与上下文生成:这是我们最熟悉的领域,即如何写出清晰、有效的指令。论文提到了一些高级技巧,比如“思维链”(Chain-of-Thought),就是教AI像人一样“一步一步地思考”,而不是直接给出答案。后来还发展出了更复杂的“思维树”(Tree-of-Thoughts)和“思维图”(Graph-of-Thoughts),让AI能够探索多种推理路径,就像画思维导图一样。外部知识检索:AI模型内部的知识是有限的,而且可能过时。这一步就是让AI能够从外部获取最新的、特定的知识。最核心的技术叫做检索增强生成(RAG),你可以理解为AI在回答问题前,先去一个巨大的数据库(比如百度百科)里搜索相关的资料,然后结合这些资料来生成答案。动态上下文组装:把上面获取到的所有信息(指令、外部知识、用户问题等)巧妙地组合在一起,形成一个最终的、最优化的“信息包”喂给AI。2. 上下文处理 (Context Processing) – “编辑和整理材料”拿到了原始材料后,还需要进行处理,让它们更容易被AI理解和使用。长上下文处理:AI的“注意力”是有限的,一次能处理的信息长度(即“上下文窗口”)有限。当面对一本很厚的书或一份超长的报告时,AI很容易“读到后面忘了前面”,这被称为“迷失在中间”现象(lost-in-the-middle)。这个领域的研究就是为了解决这个问题,比如通过架构创新或优化注意力机制,让AI能处理上百万字的超长文本。上下文自我优化和适应:让AI变得更“聪明”,能够自己检查和修改自己的答案。比如“Self-Refine”框架,就是让AI生成答案后,自己扮演批评家的角色,提出修改意见,然后再根据意见进行修改,如此循环,直到答案变得更好。多模态及结构化上下文:除了纯文本,AI还需要理解图片、音频、视频,甚至是表格和知识图谱这样的结构化数据。这个部分就是研究如何将这些不同类型的信息转换并整合到AI的上下文中。3. 上下文管理 (Context Management) – “归档和压缩材料”AI的“办公桌”(上下文窗口)是有限的,所以必须高效地管理信息。基本约束:首先要认识到AI有“上下文窗口大小”这个根本限制,它既影响性能,也带来巨大的计算成本。记忆层次与存储架构:为AI建立像电脑一样的记忆系统,分为快速读取但容量小的“短期记忆”(在上下文窗口内)和容量大但读取稍慢的“长期记忆”(存储在外部数据库中)。上下文压缩:顾名思义,就是把信息“压缩”一下,用更少的文字表达同样多的信息,这样就能在有限的“办公桌”上放下更多东西。第二部分:系统实现 (System Implementations)学习了基础组件后,这一部分将展示如何将它们组装成先进的AI系统,真正解决现实世界的问题。1. 检索增强生成系统 (RAG) – “为AI配一个超级图书馆”这是最主流的应用之一,核心是连接外部知识。模块化RAG:把RAG系统设计得像乐高积木一样,可以灵活地替换和组合不同的检索、生成模块,以适应不同任务。智能体RAG(AgenticRAG):这是一种更高级的RAG。普通的RAG是被动地“先搜后答”,而AgenticRAG中的AI会像一个侦探一样,主动思考“我需要什么信息?”、“我应该去哪里搜?”,然后自主地执行检索操作。图增强RAG:使用“知识图谱”这种网络状的结构化知识来代替纯文本数据库。这样做的好处是信息之间的关联性更强,AI可以进行更复杂的“多跳推理”,比如从“A认识B”和“B认识C”推断出A和C的间接关系。2. 记忆系统 (Memory Systems) – “为AI装上大脑”这个系统致力于解决AI“健忘”的问题,让它能记住过去的对话和经验。通过构建短期和长期记忆机制,AI可以进行持续性的、个性化的互动,而不会在每次对话时都像一个“失忆的陌生人”。3. 工具集成推理 (Tool-Integrated Reasoning) – “为AI配一个工具箱”这让AI不再只是一个“聊天机器人”,而是一个可以与世界互动的“行动者”。函数调用 (Function Calling):这是实现工具集成的核心机制。AI可以生成一段特定格式的指令(比如JSON),来调用外部的应用程序接口(API),比如查询天气、订机票、控制智能家居等。这标志着AI从一个“文本生成器”向一个“世界交互器”的转变。4. 多智能体系统 (Multi-Agent Systems) – “为AI组建一个团队”这是目前最前沿、最复杂的系统。它不是让一个AI单打独斗,而是让多个拥有不同专长和角色的AI智能体协同工作,解决单个AI无法完成的复杂任务。通信协议:为了让AI们能够有效沟通,需要制定一套统一的“语言”和“规则”,就像人类开会需要遵循议程一样。编排机制(Orchestration):需要一个“项目经理”角色的AI来分解任务、分配工作、协调进度,确保整个团队高效运作。第三部分:评估 (Evaluation)有了这些强大的系统,我们如何客观地评价它的好坏?这是一个巨大的挑战 。传统的AI评估指标(如准确率)已经不够用了。评估的复杂性:我们需要评估的不再是单一任务的成败,而是整个系统的推理过程、工具使用是否合理、记忆是否准确、团队协作是否高效。新的评估基准:论文提到了一系列新的、更贴近现实世界的评估基准(Benchmarks),比如WebArena(评估AI操作网页的能力)、GAIA(评估通用AI助手的能力)等。性能差距:评估结果显示,尽管这些系统很强大,但在许多真实世界的复杂任务上,它们与人类的表现仍有巨大差距。第四部分:未来方向与结论最后,论文展望了未来,并指出了一个核心的、根本性的挑战。最大的挑战:理解与生成的不对称性 (Comprehension-Generation Asymmetry)这是整篇论文最深刻的洞见之一,论文指出,当前的AI模型,在先进的上下文工程加持下,理解复杂信息的能力非常强(比如读懂一份上千页的财报),但生成同样复杂的长篇输出的能力却非常有限(比如让它自己写一份上千页的、逻辑严密、事实准确的财报)。这个“理解强,生成弱”的不对称性,是未来研究需要攻克的关键难题。结论“上下文工程”将AI研究的焦点从简单地“设计提示词”转向了系统性地“设计信息后勤系统”。它提供了一个统一的框架,帮助我们理解和构建下一代更强大、更可靠、更能解决实际问题的AI系统。启发未来AI产品经理的工作,将从传统的“功能设计”系统性地转向“上下文生态设计”。这篇论文可以被看作是下一代AI产品经理的“工作手册”。核心职责的转变:从定义“功能”到定义“上下文”过去,PM定义的是“用户点击这个按钮会发生什么”。现在,PM的核心工作之一是定义AI完成任务所需的完整“信息装备”。定义上下文的构成要素:PM需要像设计产品功能列表一样,设计产品的“上下文清单” 。这包括:系统指令:产品的核心定位、行为准则和个性是什么?外部知识:产品需要连接哪些数据库或知识库?是需要实时新闻,还是公司内部的保密文档?可用工具:产品需要具备哪些“超能力”?是需要调用计算器、搜索引擎,还是接入公司内部的审批API?记忆:产品需要“记住”用户多久?是仅限于单次对话的短期记忆,还是需要跨越数周乃至数月的长期个性化记忆?这对用户体验至关重要。动态状态:产品需要感知哪些动态变化?比如用户的情绪状态、团队协作衡量标准的重塑:从“功能可用”到“系统可靠”论文用整整一章(第6章)来探讨“评估”(Evaluation)的复杂性,这对PM如何定义产品成功至关重要。定义更复杂的KPIs:过去,PM可能只关心功能的点击率或任务成功率。现在,需要定义更深层次的、面向过程的指标。论文指出,评估需要深入到组件层面和系统层面。例如:检索质量:RAG系统检索到的信息相关性、准确性如何?工具使用效率:AI是否在最合适的时机调用了最合适的工具?记忆保真度:AI的长期记忆是否会出错或“遗忘”关键信息?协作效率:在多智能体系统中,AI之间的沟通成本和协作效果如何我们的角色正在从一个“功能设计师”演变为一个“AI系统架构师”和“信息生态的构建者”。需要用更宏观、更系统的视角去思考产品的形态、价值和边界,交付物将从“需求文档”扩展为包含上下文策略、处理规范和多维度评估体系的“产品白皮书”。本文由 @Mrs.Data 原创发布于人人都是产品经理。未经作者许可,禁止转载题图来自Unsplash,基于CC0协议该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务