PPO
一些RL的常见概念
On-policy / Off-policy
- On-policy:
学习的策略和收集数据用的策略是同一个- 用当前策略
去和环境交互采样 - 更新的目标也是让同一个
变的更好 - 当前策略产生数据,学习目标也是当前策略
- 用当前策略
- Off-policy:
target policy要学习/评估的策略,可以和 收集数据的策略(behavior policy)- 用一个更发散的策略去采样数据
- 更新时假设目标策略是另一个策略。
- |
在AirSim里尝试RL!
第一次接触RL的结果是,对问题建模的方式发生了根本性的变化。
- Title: PPO
- Author: GelerCAT
- Created at : 2025-12-19 23:59:31
- Updated at : 2025-12-22 12:17:16
- Link: https://redefine.ohevan.com/2025/12/19/PPO/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments