PPO算法 基础讲解 - 虾饺爱下棋

Wait 5 sec.

【摘要】参考链接:spinningup 前置知识点 强化学习的基本循环: 智能体(Agent)在环境(Environment)中观察当前状态(State,简称 \(s\)),根据某种策略做出动作(Action,简称 \(a\)),环境会给予反馈奖励(Reward,简称 \(r\)),并进入下一个状态。整个过 阅读全文