6. 强化学习 RL
6.1 RL 的基础知识
1. RL 和 Markov Decision Process
3. 基于策略迭代 和 基于价值迭代 的区别
6.2 RL 算法
1. 时序差分(TD)和 蒙特卡洛(MC) 的区别 *
2. Q-learning(TD,基于价值迭代,免模型,借鉴策略)
3. Sarsa 和 Sarsa()(TD,基于价值迭代,免模型,现实策略)
6.3 深度 RL
6.4 RL 的应用
Last updated