PPO算法基础讲解 - 虾饺爱下棋

Wait 5 sec.

【摘要】参考链接：spinningup 前置知识点强化学习的基本循环：智能体（Agent）在环境（Environment）中观察当前状态（State，简称 \(s\)），根据某种策略做出动作（Action，简称 \(a\)），环境会给予反馈奖励（Reward，简称 \(r\)），并进入下一个状态。整个过阅读全文

PPO算法 基础讲解 - 虾饺爱下棋

PPO算法基础讲解 - 虾饺爱下棋