vk+1(s)=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γvk(s′)]
- 值迭代的收敛性: limk→∞vk=v∗
- 收敛速度分析: 误差界 ∣∣vk−v∗∣∣≤1−γγk∣∣v1−v0∣∣
- 算法伪代码
- 两步交替过程
- 策略评估 (Policy Evaluation): 给定策略, 求解 vπ
- 策略改进 (Policy Improvement): π′(s)=argmaxaqπ(s,a)
- 策略改进定理 (Policy Improvement Theorem)
- 策略迭代的有限步收敛性
- 广义策略迭代 (Generalized Policy Iteration, GPI)
- 截断策略评估: 不求精确解, 只迭代有限步
- 值迭代和策略迭代都是截断策略迭代的特例
| 方法 | 策略评估 | 策略改进 | 特点 |
|---|
| 策略迭代 | 精确求解 | 贪婪改进 | 每轮改进保证 |
| 值迭代 | 单步更新 | 隐式改进 | 计算效率高 |
| 截断策略迭代 | 有限步迭代 | 贪婪改进 | 灵活平衡 |