11. 强化学习
11.1 强化学习基础 **
1. 强化学习基础 *
Environment, Agent, State, Action, Reward
马尔可夫决策过程(Markov Decision Process, MDP)
Action 上下左右,State 坐标,Reward 移动-1,Time
状态转移 Markov,累计收益 R=E(∑t=0Tγtrt∣s0=s)
核心任务:学习一个 状态空间S 到 动作空间A 的映射,最大化累计收益
常见算法:Q-learning、策略梯度、Actor-Critic
2. 价值迭代 **
贝尔曼方程(Bellman Equation)V∗(S)=maxa∑s′,rp(s′,r∣s,a)[r+γV∗(s′)]
采取动作 a 后,带来的奖励 r
采取动作 a 后,到达新状态的价值 V(s′)
3. 最优路线 **
策略评估(Policy Evaluation)
初始化,策略评估,策略提升,迭代直至收敛
11.2 视频游戏里的强化学习 ***
Q-learning:Q(sj,aj)=Esj+1yj,其中 yj=rj+γ⋅maxaQ(sj+1,a)
Q 为 动作效用函数(action-utility function),用于评价在特定状态下采取某个动作的优劣
建立一个 Q-Table,以 State 为行、Action 为列,通过每个动作带来的奖赏更新Q-Table
迭代步骤
根据当前的 Q 函数执行一次行动 at
获得本次收益 rt 及下个状态 st+1
以某种方式获得一个四元组 (sj,aj,rj,sj+1)
计算 yj
对 (yj−Q(sj,aj;θ))2 执行一次梯度下降,完成参数更新
Q(st,aT)←Q(st,at)+α[rt+γmaxa′∈AQ(st+1,a′)−Q(st,at)]
传统强化学习 vs. 深度强化学习
小概率随机探索、历史回放
问题
因为涉及在状态空间上求 Q 函数的最大值,只适用于 离散状态空间
没有 收敛性保证
11.3 策略梯度 Policy Gradient ****
无差别处理 连续/离散 状态空间, 保证至少收敛到 local optima
基本思想:直接用 梯度方法 来优化 R(θ)
状态 st+1∼p(st+1∣st,at),策略 at∼πθ(at∣st) 是分布采样
总收益函数 R(θ)=E(∑0Tztrt),完全由 θ 决定
与 Q-learning 不同,不估算 Q 函数本身,而是直接生成 at
给定一个策略 πθ,模拟获得一些轨迹 τ,获得 收益 r(τ) 以及每一步的 <s,a> 对
对应的 梯度 g(τ)=∑k=0T∇θlogπθ(ak∣sk)⋅r(τ),用来更新 θ
11.4 探索与利用 ***
平衡 exploration vs. exploitation
ϵ−greedy 算法:以 ϵ 的概率随机探索(不使用历史信息),以 1−ϵ 的概率选择利用
置信区间上界(UCB)算法:每次推荐时,总是乐观地认为每道菜的回报是 p~+Δ
Chernoff-Hoeffding Bound:Δ=n2lnT
P{∣p~−p∣≤n2lnT}≥1−T42
Last updated