vπ(s)=E[Gt∣st=s]
- 状态值函数的含义: 在策略 π 下从状态 s 出发的期望回报
- 贝尔曼公式的推导 (基于全期望公式 / Law of Total Expectation)
vπ(s)=∑aπ(a∣s)∑s′p(s′∣s,a)[r(s,a,s′)+γvπ(s′)]
vπ=rπ+γPπvπ
- 其中 Pπ 为策略 π 下的状态转移矩阵
- 解的存在性和唯一性
(I−γPπ)vπ=rπ
vπ=(I−γPπ)−1rπ
qπ(s,a)=E[Gt∣st=s,at=a]
vπ(s)=∑aπ(a∣s)qπ(s,a)
qπ(s,a)=∑s′p(s′∣s,a)[r(s,a,s′)+γ∑a′π(a′∣s′)qπ(s′,a′)]