RL Basics
有关强化学习中一些基础概念的理解与思考。
塔式性
各种教程中对于RL里面价值函数这一部分的推导经常默认看得懂全期望公式。
为什么
对于随机变量
随机变量的期望,等于条件期望的期望。
回想一下,全期望公式告诉我们,如果要对整体取期望,可以对分组取期望。再根据分组出现的概率,当作系数加和,得到最终的期望。
(ref)
接着用条件期望的定义,把内层
代回去得到:
最后交换求和顺序,并利用全概率公式
塔式法则告诉我们,一个总体期望,可以查分成现在某个条件下求期望,再对这个信息本身的随机性做一次平均。对应到MDP里面,未来的回报本身是不确定的,取决于下一个状态,下一个动作。所以价值函数是一个期望。
但我要对当前的价值做个估计,根据塔式性,我们可以求未来的在各个状态/动作影响后价值函数,再对以这些状态为划分的价值期望求期望,就能够间接的求出当前的价值期望。是一种递归的分解。
回到一开始的疑问:
这时候,令分组变量是下一个状态
$$\mathbb{E}\pi[G{t+1} | S_t = s] = \mathbb{E}\pi[\mathbb{E}\pi[G_{t+1}|S_{t+1}]|S_t=s]$$
这里面就把对于未来的不可控转化成了下一个状态价值的平均。
价值函数是在估计未来,而不看过。站在当前时间步,可以用未来所有状态的经验分布预估未来价值,同时确定观测当前时间步的回报。
- Title: RL Basics
- Author: GelerCAT
- Created at : 2025-12-21 15:09:34
- Updated at : 2025-12-22 12:17:16
- Link: https://redefine.ohevan.com/2025/12/21/RL Basic/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments