# Intro

用的参考资料主要是 Reinforcement Learning: An Introduction (2nd Edition). 这本书是强化学习领域的经典教材。

# 概念

强化学习 (Reinforcement Learning, RL) 是一种从交互 (interaction) 中实现的，目标导向的 (goal-directed) 机器学习方法。强化学习的许多问题描述依赖动力系统 (dynamical systems) 的相关内容。

# 强化学习的元素

强化学习使用马尔可夫决策过程 (Markov Decision Process, MDP) 框架来描述强化学习问题。

除去个体 (agent) 和环境 (environment) 之外，强化学习还包含以下元素：

策略 (policy): 策略定义了个体在给定时间内的行为模式 (behaving).
奖励信号 (reward signal): 奖励信号定义了一个强化学习问题的目标。在每一个时间步中，环境都会向强化学习个体反馈一个数字，这个数字称为奖励 (reward). 个体的唯一目标就是最大化总奖励。
价值函数 (value function): 价值函数定义了个体的长期奖励，实际上是对长期的总奖励的估计。
模型 (model): 是对环境的模拟，即提前对环境行为做出推断。在强化学习中，基于模型 (model-based) 的方法要优于不基于模型 (model-free) 的方法，因为后者需要依赖试错进行学习。

# 表格解决方法 (Tabular Solution Methods)

强化学习的最简单形式是状态和动作空间都足够小的情况，此时强化学习方法通常可以找到精确的解决方案。

# 多臂老虎机

# Ref

https://spinningup.openai.com/en/latest/index.html