- 确定性问题 vs. 随机性问题的求解
- 为什么需要随机逼近方法
xk+1=xk−αk[g(xk)+wk]
- 其中 wk 为零均值随机噪声
- 步长 (Step size) 序列 αk 的条件:
- αk≥0,∀k
- ∑k=0∞αk=∞ (保证能到达任意点)
- ∑k=0∞αk2<∞ (保证噪声累积有限)
- RM 算法的收敛性证明
- 基于鞅收敛定理 (Martingale Convergence Theorem)
- 均方收敛分析
θk+1=θk−αk∇fik(θk)
- SGD 与 RM 算法的关系
- 随机梯度的无偏性: E[∇fi(θ)]=∇J(θ)
- SGD 的收敛速度分析
- 与批量梯度下降 (Batch GD) 的对比
- SGD 的方差问题
- 不同步长策略的对比
- 常数步长 vs. 衰减步长
- SGD 在深度学习中的应用