PPO

GelerCAT Lv2

2025-12-19 23:59:31 2025-12-19 23:59:31 Created 2026-02-23 12:37:31 2026-02-23 12:37:31 Updated

RL UE

162 Words 1 Mins

一些RL的常见概念

On-policy / Off-policy

On-policy: 学习的策略和收集数据用的策略是同一个
- 用当前策略去和环境交互采样
- 更新的目标也是让同一个变的更好
- 当前策略产生数据，学习目标也是当前策略
Off-policy: target policy 要学习/评估的策略，可以和收集数据的策略（behavior policy）
- 用一个更发散的策略去采样数据
- 更新时假设目标策略是另一个策略。
- |

在AirSim里尝试RL！

第一次接触RL的结果是，对问题建模的方式发生了根本性的变化。

Title: PPO
Author: GelerCAT
Created at : 2025-12-19 23:59:31
Updated at : 2026-02-23 12:37:31
Link: https://redefine.ohevan.com/2025/12/19/PPO/
License: This work is licensed under CC BY-NC-SA 4.0.

#RL UE

Comments

On this page

PPO

一些RL的常见概念
1. On-policy / Off-policy
在AirSim里尝试RL！