【摘要】左脚踩右脚:让 LLM 自进化的 Agent 轨迹训练法——为什么它能补上主流范式的最后一块拼图 复杂多轮任务中,单靠提示词的 Agent 又慢又贵;传统微调又缺高质量过程数据。 本文提出一种 “左脚踩右脚”式自进化训练闭环:让 Agent 跑任务产生完整轨迹,再用这些轨迹反向训练基座模型,使其内化 阅读全文