6. 强化学习 RL

6.1 RL 的基础知识

1. RL 和 Markov Decision Process

  • RL 要素:状态集合 S,动作集合 A,状态转移函数 P,奖励函数 R

  • 步骤:动作(连续 / 离散)、奖励(累积回报)、环境转移

  • 分类

    • 是否对真实环境建模:有模型学习、免模型学习(主流,数据驱动,泛化能力强)

    • 更新策略:单步更新、回合更新

    • 行为策略和价值策略是否相同:现实策略(on-policy)、借鉴策略(off-policy)

    • 能否推测状态转移概率:动态规划、蒙特卡洛法

3. 基于策略迭代 和 基于价值迭代 的区别

  • 基于策略迭代:给定状态下,采取何种动作,e.g. 策略梯度(Policy Gradients)

  • 基于价值迭代:维护价值表格 / 函数,取最大(离散环境),e.g. Q-Learning, Sarsa

  • 联合决策:演员-评论家(Actor-Critic)算法

6.2 RL 算法

1. 时序差分(TD)和 蒙特卡洛(MC) 的区别 *

  • 时序差分:采样不完整序列,快速、灵活

  • 蒙特卡洛:经历完整状态序列

2. Q-learning(TD,基于价值迭代,免模型,借鉴策略)

  • 动作价值函数 Qπ(st,at)=E[rt+γQπ(st+1,at+1)st,at]Q^\pi(s_t,a_t)=\mathbb E[r_t+\gamma Q^\pi(s_{t+1},a_{t+1})|s_t,a_t],是 Bellman 方程

  • 步骤(浅层时序差分采样)

    • 动作选择:贪心算法,ξ\xi 贪心策略(概率随机 / 贪心)

    • 执行动作,获得 rtr_t 以及 st+1s_{t+1}

    • 更新 Q 值:Q(st,at)Q(st,at)+α(rt+γmaxat+1Q(st+1,at+1)Q(st,at))Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha(r_t+\gamma \max_{a_{t+1}}Q(s_{t+1},a_{t+1})-Q(s_t,a_t))

3. Sarsa 和 Sarsa(λ\lambda)(TD,基于价值迭代,免模型,现实策略)

  • Sarsa 和 Sarsa(λ\lambda)

    • Sarsa:单步更新,Q(st,at)Q(st,at)+α(rt+γQ(st+1,at+1)Q(st,at))Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha(r_t+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t))

    • Sarsa(λ\lambda):n 步更新,衰减求和,Q(st,at)Q(st,at)+α(qtλQ(st,at))Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha(q_t^\lambda -Q(s_t,a_t))

      • qt=rt+γQ(st+1,at+1)q_t=r_t+\gamma Q(s_{t+1},a_{t+1})

      • qtλ=(1λ)n=1λn1qt(n)q_t^\lambda=(1-\lambda)\sum_{n=1}^\infty \lambda^{n-1}q_t^{(n)}

  • Sarsa 和 Q-learning

    • Q-learning 取 max 非常激进(每步最优),Sarsa 相对保守(安全迭代)

    • Q-learning 是 借鉴策略 的 TD,Sarsa 是 现实策略 的 TD

6.3 深度 RL

  • 动作价值函数 Q(s,a;θ)Qπ(s,a)Q(s,a;\theta)\approx Q_\pi(s,a),函数近似,替代表格存储

  • 价值更新函数:类似 Q-learning

    • Q(st,at;θ)Q(st,at;θ)+α(rt+γmaxat+1Q(st+1,tt+1;θ)Q(st,at;θ))Q(s_t,a_t;\theta)\leftarrow Q(s_t,a_t;\theta)+\alpha(r_t+\gamma \max_{a_{t+1}}Q(s_{t+1},t_{t+1};\theta)-Q(s_t,a_t;\theta))

    • 相应损失函数 Loss(θ)=E(rt+rtmaxat+1(st+1,at+1;θ)Q(st,at;θ))2Loss(\theta)=\mathbb E(r_t+r_t\max_{a_{t+1}}(s_{t+1},a_{t+1};\theta)-Q(s_t,a_t;\theta))^2

  • 经验回放:从历史数据中随机采样

6.4 RL 的应用

  • 游戏 - 策略指制定:Atari、星际争霸(多智能体)、AlphaGo(Zero)

  • 自动驾驶 - 决策系统:强制性约束 + 可学习策略

  • AutoML - 神经网络架构搜索:Google Brain

  • NLP - 对话系统:任务型对话 / 非任务型对话,理解+生成+策略学习

  • 广告 - 广告主竞价策略:探索 + 利用

Last updated