- TD 方法的基本思想: bootstrapping (自举)
- TD vs. MC 的核心区别: TD 使用估计值更新, MC 使用实际回报
V(st)←V(st)+α[rt+1+γV(st+1)−V(st)]
- TD 误差 (TD error): δt=rt+1+γV(st+1)−V(st)
- TD 与 RM 算法的关系
- TD 算法的收敛性分析
- 基于随机逼近理论
- TD 的期望更新等价于贝尔曼期望方程
Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]
- Sarsa: State-Action-Reward-State-Action
- 在线策略控制: 行为策略 = 目标策略
- 与 ϵ-贪心策略结合
Q(st,at)←Q(st,at)+α[rt+1+γ∑a′π(a′∣st+1)Q(st+1,a′)−Q(st,at)]
- 降低 Sarsa 的方差
- 可以使用任意策略进行探索
Gt:t+n=rt+1+γrt+2+⋯+γn−1rt+n+γnV(st+n)
Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]
- 离线策略控制: 行为策略 = 目标策略
- Q-learning 的收敛性保证
- MC 和 TD 的统一视角
- 多步 TD 方法的谱系
- λ-return 和 TD(λ) 的简介