在策略 π 下从状态 s 出发的期望回报:
vπ(s)=E[Gt∣St=s]
基于全期望公式, 即时奖励 + 折扣后的未来状态值:
vπ(s)=a∈A∑π(a∣s)[r∈R∑p(r∣s,a)r(s,a,s′)+γs′∈S∑p(s′∣s,a)vπ(s′)]
特殊地, 奖励取决于状态转移时:
vπ(s)=a∈A∑π(a∣s)s′∈S∑p(s′∣s,a)[r(s,a,s′)+γvπ(s′)]
由
E[Gt∣St=s]=a∈A∑π(a∣s)E[Gt∣St=s,At=a]
得到
vπ(s)=a∈A∑π(a∣s)qπ(s,a)
即
qπ(s,a)=r∈R∑p(r∣s,a)r(s,a,s′)+γs′∈S∑p(s′∣s,a)vπ(s′)
Pπ 为策略 π 下的状态转移矩阵:
vπ=rπ+γPπvπ
解的存在性和唯一性:
(I−γPπ)vπ=rπ
vπ=(I−γPπ)−1rπ