Bellman Optimality Equation
最优策略:
vπ∗(s)≥vπ(s),∀s∈S,∀π
v∗(s)=πmaxvπ(s)=πmaxa∈A∑π(a∣s)q(s,a)=πmaxa∈A∑π(a∣s)[r∈R∑p(r∣s,a)r(s,a,s′)+γs′∈S∑p(s′∣s,a)vπ(s′)]
q∗(s,a)=r∈R∑p(r∣s,a)r(s,a,s′)+γs′∈S∑p(s′∣s,a)v∗(s′)
v∗=πmax(rπ+γPπv∗)=rπ∗+γPπ∗v∗
其中, π∗=argπmax(rπ+γPπv∗).