引言
Bellman equation
是强化学习的基石,以前为了快速应用,这部分的知识没有吃透,总是有一种不踏实的感觉,这次从费曼学习法的思想出发,力求完全透彻理解该公式及其推导过程。接下来,我们分三个部分对Bellman equation
进行讲述。
前置知识
贝尔曼等式推导的前置知识,主要包含条件概率的全概率公式,以及全期望定理,相关介绍在这里。
Bellman equation
是强化学习的基石,以前为了快速应用,这部分的知识没有吃透,总是有一种不踏实的感觉,这次从费曼学习法的思想出发,力求完全透彻理解该公式及其推导过程。接下来,我们分三个部分对Bellman equation
进行讲述。
贝尔曼等式推导的前置知识,主要包含条件概率的全概率公式,以及全期望定理,相关介绍在这里。
原文作者:茄子
原文链接:https://eggplant.wiki/2025/07/12/bei-er-man-deng-shi-jie-shao-ji-tui-dao/
发表日期:July 12th 2025, 5:00:48 pm
更新日期:July 13th 2025, 4:08:30 pm
版权声明:本文采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可