11. 强化学习

11.1 强化学习基础 **

1. 强化学习基础 *

  • Environment, Agent, State, Action, Reward

  • 马尔可夫决策过程(Markov Decision Process, MDP)

    • Action 上下左右,State 坐标,Reward 移动-1,Time

    • 状态转移 Markov,累计收益 R=E(t=0Tγtrts0=s)R=E(\sum_{t=0}^T \gamma^t r_t|s_0=s)

  • 核心任务:学习一个 状态空间S动作空间A 的映射,最大化累计收益

  • 常见算法:Q-learning、策略梯度、Actor-Critic

2. 价值迭代 **

  • 贝尔曼方程(Bellman Equation)V(S)=maxas,rp(s,rs,a)[r+γV(s)]V_*(S)=\max_a\sum_{s',r} p(s',r|s,a)[r+\gamma V_*(s')]

    • 采取动作 a 后,带来的奖励 r

    • 采取动作 a 后,到达新状态的价值 V(s)V(s')

3. 最优路线 **

  • 策略评估(Policy Evaluation)

    • 初始化,策略评估,策略提升,迭代直至收敛

11.2 视频游戏里的强化学习 ***

  • Q-learning:Q(sj,aj)=Esj+1yjQ(s_j,a_j)=E_{s_{j+1}}y_j,其中 yj=rj+γmaxaQ(sj+1,a)y_j=r_j+\gamma\cdot \max_a Q(s_{j+1},a)

    • QQ动作效用函数(action-utility function),用于评价在特定状态下采取某个动作的优劣

    • 建立一个 Q-Table,以 State 为行、Action 为列,通过每个动作带来的奖赏更新Q-Table

  • 迭代步骤

    • 根据当前的 QQ 函数执行一次行动 ata_t

    • 获得本次收益 rtr_t 及下个状态 st+1s_{t+1}

    • 以某种方式获得一个四元组 (sj,aj,rj,sj+1)(s_j,a_j,r_j,s_{j+1})

    • 计算 yjy_j

    • (yjQ(sj,aj;θ))2(y_j-Q(s_j,a_j;\theta))^2 执行一次梯度下降,完成参数更新

      • Q(st,aT)Q(st,at)+α[rt+γmaxaAQ(st+1,a)Q(st,at)]Q(s_t,a_T)\leftarrow Q(s_t,a_t)+\alpha[r_t+\gamma\max_{a'\in A}Q(s_{t+1},a')-Q(s_t,a_t)]

  • 传统强化学习 vs. 深度强化学习

    • 小概率随机探索、历史回放

  • 问题

    • 因为涉及在状态空间上求 Q 函数的最大值,只适用于 离散状态空间

    • 没有 收敛性保证

11.3 策略梯度 Policy Gradient ****

无差别处理 连续/离散 状态空间, 保证至少收敛到 local optima

  • 基本思想:直接用 梯度方法 来优化 R(θ)R(\theta)

    • 状态 st+1p(st+1st,at)s_{t+1}\sim p(s_{t+1}|s_t,a_t),策略 atπθ(atst)a_t\sim\pi_\theta(a_t|s_t) 是分布采样

    • 总收益函数 R(θ)=E(0Tztrt)R(\theta)=E(\sum_0^T z_t r_t),完全由 θ\theta 决定

    • 与 Q-learning 不同,不估算 QQ 函数本身,而是直接生成 ata_t

  • 给定一个策略 πθ\pi_\theta,模拟获得一些轨迹 τ\tau,获得 收益 r(τ)r(\tau) 以及每一步的 <s,a> 对

    • 对应的 梯度 g(τ)=k=0Tθlogπθ(aksk)r(τ)g(\tau)=\sum_{k=0}^T \nabla_\theta \log\pi_\theta (a_k|s_k)\cdot r(\tau),用来更新 θ\theta

11.4 探索与利用 ***

  • 平衡 exploration vs. exploitation

  • ϵgreedy\epsilon-greedy 算法:以 ϵ\epsilon 的概率随机探索(不使用历史信息),以 1ϵ1-\epsilon 的概率选择利用

  • 置信区间上界(UCB)算法:每次推荐时,总是乐观地认为每道菜的回报是 p~+Δ\tilde p+\Delta

    • Chernoff-Hoeffding Bound:Δ=2lnTn\Delta=\sqrt{\frac{2\ln T}{n}}

      • P{p~p2lnTn}12T4P\{|\tilde p-p|\le \sqrt{\frac{2\ln T}{n}}\}\ge1-\frac{2}{T^4}

Last updated