- 蒙特卡洛估计的基本思想
- 大数定律 (Law of Large Numbers) 的保证
- 第一类蒙特卡洛方法 (First-visit MC)
- 第二类蒙特卡洛方法 (Every-visit MC)
- 基于经验均值的估计
v(s)≈N(s)1∑i=1N(s)Gi(s)
- 探索性起点 (Exploring Starts): 每个状态-动作对都有机会作为起点
- MC with Exploring Starts 的完整算法
- 收敛性分析
- ϵ-贪心策略 (Epsilon-Greedy Policy)
π(a∣s)={1−ϵ+ϵ/∣A∣,ϵ/∣A∣,a=argmaxaQ(s,a)otherwise
- 在线策略 (On-policy) 方法
- 探索与利用的平衡 (Exploration vs. Exploitation)
- 网格世界中 ϵ-贪心 MC 的实际表现
- 不同 ϵ 值的影响