machine-learning

⌘Ctrlk

1. 基础概念

Markov Decision Process (MDP)

Sets
- State: $\mathcal{S}$
- Action: $\mathcal{A}(s)$
- Reward: $\mathcal{R}(s,a)$
Probability distribution
- State transition: $p(s'|s,a)$
- Reward: $p(r|s,a)$
Policy: $\pi(a|s)$
Markov property

Previous强化学习的数学原理 Next2. 贝尔曼公式

Last updated 10 months ago