左脚踩右脚：让 LLM 自进化的 Agent 轨迹训练法——为什么它能补上主流范式的最后一块拼图 - doiito

Wait 5 sec.

【摘要】左脚踩右脚：让 LLM 自进化的 Agent 轨迹训练法——为什么它能补上主流范式的最后一块拼图复杂多轮任务中，单靠提示词的 Agent 又慢又贵；传统微调又缺高质量过程数据。本文提出一种 “左脚踩右脚”式自进化训练闭环：让 Agent 跑任务产生完整轨迹，再用这些轨迹反向训练基座模型，使其内化阅读全文