多模态提示词的设计（五）

Wait 5 sec.

大型模型不仅仅只有“语言”模型，它们正演变为能够同时理解和处理多种信息类型（或称“模态”）的“多模态模型”。这为产品设计开辟了全新的维度，也对提示词工程提出了新的要求。什么是多模态提示词？多模态提示词是一种向AI模型下达的指令，其输入包含两种或两种以上的数据类型。最常见的组合是文本和图像。但也可以扩展到视频、音频等多种模态的任意组合。简单示例：用户上传一张卡通人物头像，并附上文本提示词：“把图中女孩的衣服换成带花朵图案的短袖”在这里，模型需要同时“看懂”图片内容和“读懂”文本指令，然后综合两种信息来生成回答。这种能力使得AI能够解决远比单一文本处理更复杂的现实世界问题。如何撰写多模态提示词？尽管输入的数据类型增加了，但设计多模态提示词的核心原则、技巧等与纯文本提示词一脉相承。关键在于通过文本指令，精确地引导模型如何去理解和关联不同模态的信息。指令要极其具体：避免使用模糊的指令。反例：“描述这张图片。” 附上一张机场航班信息屏的图片。模型可能只会简单回答“这是一张航班信息板” 。优例：“请分析这张机场航班信息屏的图片，并将所有航班号、目的地城市和计划起飞时间提取出来，以JSON格式返回。” 这个指令明确告知模型要“看”什么，以及“如何”输出结果。使用少样本示例：当需要模型输出特定格式或风格时，提供包含多种模态的完整示例。场景：你需要模型根据地标图片，返回“城市: [城市名], 地标: [地标名]”。优例：在提示词中，先给出几个范例，每个范例都包含一张图片和对应的标准答案文本，如：（罗马斗兽场图片）-> “city: Rome, landmark: the Colosseum”。然后再附上新的待识别图片，模型便会遵循这个格式进行输出。引导模型分步思考（思维链）：对于需要复杂推理的视觉问答任务，引导模型分步思考可以显著提高准确性。场景：用户上传一张照片，里面有3卷卫生纸，并提问“这些卫生纸我能用多久？”反例：直接提问可能得到一个模糊的答案，如“很快就会用完” 。优例：将问题分解为指令：“请按以下步骤回答问题：首先，数一下图片里有几卷卫生纸。其次，估算一个普通人平均每天使用多少卫生纸。最后，根据前两步计算出这些卫生纸大约能使用多长时间。”这种方式引导模型进行了逻辑推理，而不是凭感觉猜测。指定输出格式：如果需要将模型的输出用于下游的自动化流程，明确指定输出格式（如JSON、Markdown、HTML）至关重要。多模态提示词设计面临的常见问题及解决方案设计多模态提示词时，会遇到一些特有的挑战。挑战一：提示词不稳定性问题描述：多模态模型有时对文本提示词的微小变化异常敏感。例如，稍微改变一下措辞，模型对同一张图片的解读就可能发生巨大变化。原因：这源于模型内部复杂的“嵌入空间”和“注意力机制”。相似的词语在模型的向量表示中可能很接近，但句法结构的微小变化，就可能导致注意力权重在图像和文本特征上产生截然不同的分布，从而激活了模型知识网络中完全不同的部分，导致输出结果大相径庭。解决方案：（这些方案也不一定有用，只能多尝试）强化结构：使用更明确、更结构化的提示词（如使用XML标签包裹指令），减少模糊性。鲁棒性测试：在测试阶段，故意用几种近义词或不同句式来表达同一个指令，观察模型输出的稳定性，并选择最稳健的提示词版本。数据增强训练：在更高级的应用中，可以通过使用增强数据（如同义词替换、句式变换）对模型进行额外训练，以提升其对提示词变化的抵抗力。挑战二：模型注意力失焦或理解模糊问题描述：模型可能没有关注到图片中的关键区域，或者对用户的真实意图理解有偏差。例如，用户想知道一包纸尿裤能用多久，模型却错误地基于包装上的某个数字（如“198片”）给出了一个离谱的答案。原因：图像本身信息密度极大，而文本提示如果不够精确，就无法为模型的“注意力”提供清晰的焦点。模型可能会被视觉上更显著但不相关的特征（如包装上的大号数字）所吸引。同时，对于需要常识推理的模糊问题（如“能用多久”），模型可能倾向于进行字面解读或寻找最直接的数字关联，而非启动复杂的多步推理。解决方案：分解任务：将模糊的、一步到位的提问，分解成一系列具体的、可验证的子任务。对于纸尿裤的例子，可以指示模型：识别包装上的纸尿裤数量。基于新生儿每天约用8-10片纸尿裤的常识。计算这包纸尿裤能用几天。要求解释：在提示词中加入“请解释你的推理过程”或“请说明你的答案是基于图片的哪些信息得出的”。这不仅能暴露模型的错误逻辑，还能引导其进行更深入的思考。挑战三：高质量测试数据对齐困难问题描述：创建用于评测和优化的多模态数据集比纯文本更具挑战性，因为它需要确保不同模态数据间的精确对齐（例如，一张图片需要配上一个准确、详尽且无偏见的“标准答案”描述）。原因：这主要源于标注的“主观性”和“高成本”。同一张图片，从不同角度可以有多种“正确”的描述，其详略、侧重都不同，因此定义一个统一、客观、无偏见的“标准答案”本身就极具挑战。此外，为海量图片进行高质量、精细化的文本标注，所需的人工成本和时间成本远超纯文本数据的处理。解决方案（对产品和业务人员而言）：建立“黄金标准集”：在产品开发初期，不必追求大规模数据集。可以由领域专家或团队成员共同创建并审核一个规模较小（如20-50个案例）但质量高的“黄金标准”测试集。人工审核为主：对于多模态输出的评测，初期应以人工审核为主，对照黄金标准集进行评估。自动化评测工具可以作为辅助，但不能完全替代人类对视觉和语境细微之处的判断。案例：假设我们要评测一个AI模型的“商品描述生成”功能。– 输入图片：一张白色背景、角度略微俯视的“Nike Air Force 1”运动鞋图片。– 目标：模型能生成一段吸引人的、准确的商品描述。– 对齐挑战：– 标注A（事实派）：“一双白色的Nike Air Force 1运动鞋，皮革材质，侧面有Swoosh标志，白色鞋底。”这个描述非常客观，但缺乏营销吸引力。– 标注B（营销派）：“经典永不过时！标志性的Air Force 1，利落的皮革、大胆的配色和恰到好处的篮球风格，让你成为焦点。”这个描述很有吸引力，但可能忽略了一些具体的产品细节。– 标注C（细节控）：“产品型号AF-1-007，男款，尺码42。鞋面采用头层牛皮，橡胶外底，鞋舌处有Nike品牌标签，后跟处有刺绣Logo。”这个描述非常详尽，但对普通消费者来说可能过于技术化。三个“标准答案”都是“正确”的，但风格和侧重点完全不同。如果评测团队不对标注标准达成高度一致，那么模型的输出无论接近哪个版本，都可能被判定为“不准确”。这种不一致性使得自动化评测变得极为困难，也让模型优化的方向变得模糊不清。谷歌针对Gemini的多模态提示故障排除策略为了改进您的多模态提示，特别是当您未获得所需结果时，可以尝试以下几种故障排除策略：故障排除是哪一部分失败为了区分模型是未理解图像（图像理解）还是理解了图像但推理步骤出错（推理步骤），可以要求模型描述图像中的内容。另一种策略是要求模型解释其推理过程。这有助于缩小问题范围，找出推理中断的部分。将图像置于文本提示之前（针对单图像提示）虽然 Gemini 模型可以按任意顺序处理图像和文本输入，但对于包含单张图像的提示，将图像（或视频）放在文本提示之前可能会获得更好的性能。然而，如果提示需要图像与文本高度交错才能理解，则使用最自然的顺序即可。明确且具体地给出指令为了获得您想要的特定输出，提示词需要清晰和详细，确保指令具体，并留下最小的误解空间。例如，仅仅要求模型“描述这张图片”可能会得到一个通用描述。但如果您需要模型从图片中解析时间和城市，您应在提示中直接提出这个请求，从而获得更具体的列表。多模态技术正在迅速演进，其架构（如统一嵌入、交叉注意力）和模型能力也在不断变化。对产品和业务负责人而言，关键在于掌握上述核心设计原则，并保持对新技术趋势的关注，从而能够持续地将这些强大的多模态能力转化为创新的产品功能。本文由 @Mrs.Data 原创发布于人人都是产品经理。未经作者许可，禁止转载题图来自Unsplash，基于CC0协议该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务