基本概念
强化学习是指机器通过与外部环境交互,学习最佳策略的过程。其中决策的主体被称为智能体(Agent),它能够根据环境反馈的状态(State),以及人为设计的描述输出动作好坏程度的奖励(Reward)做出相应的动作(Action)。这个过程的“最佳”体现在最终的目标是调整策略,使得总体奖励最大化。
- 状态(State):
时刻的状态记为 ,所有可能的状态取值组成的空间称为状态空间(State Space) - 动作(Action):
时刻的动作记为 ,所有可能的动作取值组成的空间称为动作空间(Action Space)。输出的动作可分为随机性动作和确定性动作。随机性动作由随机策略(Stochastic Policies)产生,输出的动作服从某个可参数化的关于状态的分布即 。确定性的动作由确定性策略(Deterministic Policies)产生,输出的动作可以描述为一个参数化的关于状态的函数 - 奖励(回报,Reward):
时刻的奖励记为 ,可由一个关于状态(或者状态和动作)的函数获得。 - 轨迹:由各个时刻的
组成的序列,记为 - 总体奖励
:描述一条轨迹中的总奖励,一种描述为限无衰减的总回报(finite-horizon undiscounted return)
另一种无限有衰减的总回报(infinite-horizon discounted return)如下,其中\gamma为0到1之间的衰减系数。 - 价值函数(Value Function)
,即从状态 开始,按照策略 输出动作的条件下奖励的数学期望 - 动作-价值函数(Action-Value Function)
,即从状态 开始并输出动作 ,随后按照策略 输出动作的条件下奖励的数学期望
这里的状态(State),动作(Action),奖励(Reward)等变量是对真实系统中的变量的抽象。例如在倒立摆的控制问题中,状态是摆杆的角度、角速度、位移以及速度等参量,而动作则是输出到摆杆底端的水平方向驱动力的大小,奖励可能被人为设计为关于摆杆角度和保持直立的时间长短,摆杆的角度越小并且保持直立的时间越长奖励的值越大。