Skip to main content

Reinforcement Learning

Proximal Policy Optimization

限制策略更新的变化幅度:

rt(θ)=πθ(atst)πθold(atst)r_t(\theta) = \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)}

裁剪 (clipping) 幅度过小或过大的部分, 这就是 近端 的含义.

LRM=E(x,yw,yl)[logσ(rϕ(x,yw)rϕ(x,yl))]\mathcal{L}_{\text{RM}} = - \mathbb{E}_{(x, y_w, y_l)} [\log \sigma(r_\phi(x, y_w) - r_\phi(x, y_l))] JPPO=Ex,yπθ[rϕ(x,y)]βDKL(πθπref)J_{\text{PPO}} = \mathbb{E}_{x, y \sim \pi_\theta} [r_\phi(x, y)] - \beta \cdot D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})

Group Relative Policy Optimization

PPO 四个模型 (actor, critic, reference, reward), 需要计算成本与大量显存. GRPO 对于同一问题 (prompt), 一次性生产一组答案, 利用平均分 (group relative) 估计优势:

A^i,t=rimean(r)std(r)\hat{A}_{i,t} = \frac{r_i - \text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}

从而移除 critic 模型:

JGRPO(θ)=Es,aπθ[πθ(as)πref(as)(r(s,a)rˉgroup)]βDKL(πθπref)J_{\text{GRPO}}(\theta) = \mathbb{E}_{s,a \sim \pi_\theta} \left[ \frac{\pi_\theta(a|s)}{\pi_{\text{ref}}(a|s)} \cdot (r(s,a) - \bar{r}_{\text{group}}) \right] - \beta \cdot D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}})
KL 散度惩罚

KL 散度惩罚, 可以防止策略偏离参考模型太远: kl_coef (KL 散度惩罚系数) 太小 (0.01) 可能导致策略偏离太远 (输出混乱或质量下降), 太大 (0.5) 可能限制学习 (学习缓慢):

DKL(πθπref)=Es,aπθ[logπθ(as)πref(as)]D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) = \mathbb{E}_{s,a \sim \pi_\theta} \left[ \log \frac{\pi_\theta(a|s)}{\pi_{\text{ref}}(a|s)} \right]

Agentic RL

  • Reasoning: 通过试错学习有效的推理策略, 发现训练数据中没有的推理路径
  • Tool Use: 学会何时使用工具、选择哪个工具、如何组合多个工具
  • Memory: 学会记忆管理策略, 决定哪些信息值得记住、何时更新/删除
  • Planning: 学会动态规划, 权衡短期和长期收益, 发现有效的行动序列
  • Self-Improvement: 学会自我反思, 识别错误、分析失败原因、调整策略
  • Perception: 提升多模态理解能力, 学会视觉推理、使用视觉工具和视觉规划

Agentic RL