
- Actor-Critic 框架的基本思想
- Actor (演员): 策略 πθ(a∣s)
- Critic (评论家): 值函数 vϕ(s)
- 用 TD 误差替代 Monte Carlo 回报
- 优势函数 (Advantage function) 的引入
A(s,a)=qπ(s,a)−vπ(s)
θ←θ+αδt∇θlnπθ(at∣st)
- Critic 更新: TD 学习更新 vϕ
- 优势 Actor-Critic 的完整算法
- 多步 TD 误差作为优势估计
A^t=∑k=0n−1γkrt+k+1+γnvϕ(st+n)−vϕ(st)
- 重要性采样 (Importance Sampling) 的基本原理
- 重要性采样比率 (Importance Sampling Ratio)
ρt=πθold(at∣st)πθ(at∣st)
- 离线策略 Actor-Critic 的设计
- 重要性采样的方差问题
- 截断重要性采样 (Truncated IS)
- 确定性策略梯度 (Deterministic Policy Gradient)
- 确定性策略 vs. 随机策略
- DDPG (Deep Deterministic Policy Gradient) 算法
- Actor: 确定性策略 μθ(s)
- Critic: Q 函数 Qϕ(s,a)
- Target networks
- Experience replay
- Ornstein-Uhlenbeck 噪声探索
- 各类 Actor-Critic 方法的对比
- 策略梯度方法的发展脉络
- 实际应用中的考虑