6. 强化学习 RL
6.1 RL 的基础知识
1. RL 和 Markov Decision Process
RL 要素:状态集合 S,动作集合 A,状态转移函数 P,奖励函数 R
步骤:动作(连续 / 离散)、奖励(累积回报)、环境转移
分类
是否对真实环境建模:有模型学习、免模型学习(主流,数据驱动,泛化能力强)
更新策略:单步更新、回合更新
行为策略和价值策略是否相同:现实策略(on-policy)、借鉴策略(off-policy)
能否推测状态转移概率:动态规划、蒙特卡洛法
3. 基于策略迭代 和 基于价值迭代 的区别
基于策略迭代:给定状态下,采取何种动作,e.g. 策略梯度(Policy Gradients)
基于价值迭代:维护价值表格 / 函数,取最大(离散环境),e.g. Q-Learning, Sarsa
联合决策:演员-评论家(Actor-Critic)算法
6.2 RL 算法
1. 时序差分(TD)和 蒙特卡洛(MC) 的区别 *
时序差分:采样不完整序列,快速、灵活
蒙特卡洛:经历完整状态序列
2. Q-learning(TD,基于价值迭代,免模型,借鉴策略)
步骤(浅层时序差分采样)
Sarsa 和 Q-learning
Q-learning 取 max 非常激进(每步最优),Sarsa 相对保守(安全迭代)
Q-learning 是 借鉴策略 的 TD,Sarsa 是 现实策略 的 TD
6.3 深度 RL
价值更新函数:类似 Q-learning
经验回放:从历史数据中随机采样
6.4 RL 的应用
游戏 - 策略指制定:Atari、星际争霸(多智能体)、AlphaGo(Zero)
自动驾驶 - 决策系统:强制性约束 + 可学习策略
AutoML - 神经网络架构搜索:Google Brain
NLP - 对话系统:任务型对话 / 非任务型对话,理解+生成+策略学习
广告 - 广告主竞价策略:探索 + 利用
Last updated