- 智能体 (Agent) 与环境 (Environment) 的交互模型
- 状态 (State) s∈S
- 动作 (Action) a∈A
- 策略 (Policy) π(a∣s)
- 状态空间的定义
- 状态转移 (State transition) p(s′∣s,a)
- 马尔可夫性质 (Markov property): p(st+1∣st,at,st−1,at−1,…)=p(st+1∣st,at)
- 离散动作空间 vs. 连续动作空间
- 确定性策略 vs. 随机策略
- 策略的定义: π:S→Δ(A)
- 确定性策略: π(s)=a
- 随机策略: π(a∣s)=P(at=a∣st=s)
- 奖励信号 rt=R(st,at,st+1)
- 奖励函数的设计
- 即时奖励 vs. 长期回报
- 无折扣回报 (Undiscounted return): Gt=k=0∑∞rt+k+1
- 折扣回报 (Discounted return): Gt=k=0∑∞γkrt+k+1
- 折扣因子 γ∈[0,1) 的作用
- MDP 的五元组定义 (S,A,P,R,γ)
- 状态转移概率 P(s′∣s,a)
- 轨迹 (Trajectory/Episode) 的概率分布
P(τ∣π)=p(s1)∏t=1Tπ(at∣st)p(st+1∣st,at)
- 书中贯穿使用的网格世界示例
- 状态空间、动作空间、奖励函数的定义