简介
强化学习的两大特点:
- 试错搜索:强化学习过程中不会有label反馈给模型,而是让模型学习哪种action可以获得最大的reward。
- 延迟奖励:大部分情况下,当前的action不但会影响此刻返回的reward,还会影响接下来序列的reward.
强化学习的组成:
- 智能体(agent):个人理解就是模型
- 状态(state)
- 奖励(reward)
- 动作(action)
- 环境(environment)
RLbook2018中,将强化学习分为以下几个要素:
- 智能体(agent)
- 环境(environment)
- 策略(policy):就是定义了一个映射,当感知到了environment处于何种state时应该做出的action
- 奖励信号(reward signal):每一步,environment都会返回给agent一个数值作为reward。目标就是使reward长期最大化
- 价值函数(value function):reward是即使反馈的信号,value function用来衡量长期运行的最优值
- 模型(model):model是用来模拟environment,推断出environment的表现
强化学习的分类:
- Model-based:基于model来解决强化学习问题。
- Model-free:不需要使用model模拟environment。一般model-free直接在真实环境中学习,所以不需要构建model