# Intro
用的参考资料主要是 Reinforcement Learning: An Introduction (2nd Edition). 这本书是强化学习领域的经典教材。
# 概念
强化学习 (Reinforcement Learning, RL) 是一种从交互 (interaction) 中实现的,目标导向的 (goal-directed) 机器学习方法。强化学习的许多问题描述依赖动力系统 (dynamical systems) 的相关内容。
# 强化学习的元素
强化学习使用马尔可夫决策过程 (Markov Decision Process, MDP) 框架来描述强化学习问题。
除去个体 (agent) 和环境 (environment) 之外,强化学习还包含以下元素:
- 策略 (policy): 策略定义了个体在给定时间内的行为模式 (behaving).
- 奖励信号 (reward signal): 奖励信号定义了一个强化学习问题的目标。在每一个时间步中,环境都会向强化学习个体反馈一个数字,这个数字称为 奖励 (reward). 个体的唯一目标就是最大化总奖励。
- 价值函数 (value function): 价值函数定义了个体的长期奖励,实际上是对长期的总奖励的估计。
- 模型 (model): 是对环境的模拟,即提前对环境行为做出推断。在强化学习中,基于模型 (model-based) 的方法要优于不基于模型 (model-free) 的方法,因为后者需要依赖试错进行学习。
# 表格解决方法 (Tabular Solution Methods)
强化学习的最简单形式是状态和动作空间都足够小的情况,此时强化学习方法通常可以找到精确的解决方案。
# 多臂老虎机
# Ref
- https://spinningup.openai.com/en/latest/index.html