Bellman Optimality Equation
- 最优策略的定义: vπ∗(s)≥vπ(s),∀s∈S,∀π
- 最优策略的存在性
- 最优策略不一定唯一, 但最优值函数唯一
v∗(s)=maxπvπ(s)
q∗(s,a)=maxπqπ(s,a)
v∗(s)=maxaq∗(s,a)
v∗(s)=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γv∗(s′)]
- 与贝尔曼期望公式的区别: max 替代 ∑π(a∣s)
- BOE 是非线性公式, 没有闭式解
q∗(s,a)=∑s′p(s′∣s,a)[r(s,a,s′)+γmaxa′q∗(s′,a′)]
- 最优策略的贪婪性质
- 贝尔曼最优公式的不动点性质
- 最优策略可以取为确定性策略