- 策略参数化: πθ(a∣s)
- 策略梯度 vs. 值函数方法的核心区别
- 策略梯度的优势: 天然处理连续动作空间
- 平均状态值 (Average state value)
vˉπ=∑sdπ(s)vπ(s)
- 策略 π 下的平稳分布 (Stationary distribution) dπ(s)
rˉπ=∑sdπ(s)∑aπ(a∣s)r(s,a)
- 两个指标的关系: vˉπ=rˉπ/(1−γ)
- 离散时间平均奖励
rˉπ=limT→∞T1E[∑t=1Trt]
- 策略梯度定理 (Policy Gradient Theorem)
∇θvˉπ=∑sdπ(s)∑a∇θπθ(a∣s)qπ(s,a)
∇θrˉπ=∑sdπ(s)∑a∇θπθ(a∣s)qπ(s,a)
- 策略梯度的推导过程
- Score function (对数概率梯度): ∇θlnπθ(a∣s)
利用梯度上升算法 (Gradient Ascent), 最大化长期奖励 (learn from rewards and mistakes):

θ∗θt+1∇RˉθRt=argθmaxRˉθ=argθmaxτ∑R(τ)P(τ∣θ)=θt+η∇Rˉθ=∂w1∂Rˉθ∂w2∂Rˉθ⋮∂b1∂Rˉθ⋮=n=t∑Nγn−trn
θ←θ+αGt∇θlnπθ(at∣st)
- REINFORCE with baseline: 减少方差
θ←θ+α(Gt−b(st))∇θlnπθ(at∣st)
- 基线 (Baseline) 的选取: 状态值函数 b(s)=vπ(s)
- 方差减少技术的重要性