PPO

GelerCAT Lv1

一些RL的常见概念

On-policy / Off-policy

  • On-policy: 学习的策略收集数据用的策略是同一个
    • 用当前策略去和环境交互采样
    • 更新的目标也是让同一个变的更好
    • 当前策略产生数据,学习目标也是当前策略
  • Off-policy: target policy 要学习/评估的策略,可以和 收集数据的策略(behavior policy)
    • 用一个更发散的策略去采样数据
    • 更新时假设目标策略是另一个策略。
    • |

在AirSim里尝试RL!

第一次接触RL的结果是,对问题建模的方式发生了根本性的变化。

  • Title: PPO
  • Author: GelerCAT
  • Created at : 2025-12-19 23:59:31
  • Updated at : 2025-12-22 12:17:16
  • Link: https://redefine.ohevan.com/2025/12/19/PPO/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments