- 为什么需要值函数逼近: 状态空间过大
- 函数逼近的基本思想: v(s)≈v^(s,w)
- 曲线拟合的直觉
- 均方贝尔曼误差 (Mean Squared Bellman Error, MSBE)
J(w)=E[(r+γv^(s′,w)−v^(s,w))2]
- 均方价值误差 (Mean Squared Value Error, MSVE)
J(w)=E[(vπ(s)−v^(s,w))2]
- MSBE vs. MSVE 的区别与联系
- 随机梯度下降目标
w←w+αδt∇wv^(st,w)
- 特征向量 / 基函数 (Basis functions) 的选择
- 线性函数逼近 vs. 非线性函数逼近 (神经网络)
- 线性逼近在网格世界中的效果
- 逼近误差分析
- 特征设计的影响
- Sarsa 的函数逼近版本
- Q-learning 的函数逼近版本
- 收敛性: 在线性逼近下有保证, 非线性逼近下不一定收敛
- 用深度神经网络逼近 Q(s,a)
- DQN 的基本架构
- 经验回放 (Experience Replay) 机制
- 打破样本相关性 (Break correlations)
- 提高数据利用效率
- 回放缓冲区 (Replay Buffer) 的设计
- DQN 完整算法流程
- 目标网络 (Target Network) 的使用
- 网格世界中的 DQN 实验结果