11. 强化学习
11.1 强化学习基础 **
1. 强化学习基础 *
Environment, Agent, State, Action, Reward
马尔可夫决策过程(Markov Decision Process, MDP)
Action 上下左右,State 坐标,Reward 移动-1,Time
状态转移 Markov,累计收益
核心任务:学习一个 状态空间S 到 动作空间A 的映射,最大化累计收益
常见算法:Q-learning、策略梯度、Actor-Critic
2. 价值迭代 **
贝尔曼方程(Bellman Equation)
采取动作 a 后,带来的奖励 r
采取动作 a 后,到达新状态的价值
3. 最优路线 **
策略评估(Policy Evaluation)
初始化,策略评估,策略提升,迭代直至收敛
11.2 视频游戏里的强化学习 ***
Q-learning:,其中
为 动作效用函数(action-utility function),用于评价在特定状态下采取某个动作的优劣
建立一个 Q-Table,以 State 为行、Action 为列,通过每个动作带来的奖赏更新Q-Table
迭代步骤
根据当前的 函数执行一次行动
获得本次收益 及下个状态
以某种方式获得一个四元组
计算
对 执行一次梯度下降,完成参数更新
传统强化学习 vs. 深度强化学习
小概率随机探索、历史回放
问题
因为涉及在状态空间上求 Q 函数的最大值,只适用于 离散状态空间
没有 收敛性保证
11.3 策略梯度 Policy Gradient ****
无差别处理 连续/离散 状态空间, 保证至少收敛到 local optima
基本思想:直接用 梯度方法 来优化
状态 ,策略 是分布采样
总收益函数 ,完全由 决定
与 Q-learning 不同,不估算 函数本身,而是直接生成
给定一个策略 ,模拟获得一些轨迹 ,获得 收益 以及每一步的 <s,a> 对
对应的 梯度 ,用来更新
11.4 探索与利用 ***
平衡 exploration vs. exploitation
算法:以 的概率随机探索(不使用历史信息),以 的概率选择利用
置信区间上界(UCB)算法:每次推荐时,总是乐观地认为每道菜的回报是
Chernoff-Hoeffding Bound:
Last updated