Reinforcement-learning

简介

强化学习的两大特点:

  • 试错搜索:强化学习过程中不会有label反馈给模型,而是让模型学习哪种action可以获得最大的reward。
  • 延迟奖励:大部分情况下,当前的action不但会影响此刻返回的reward,还会影响接下来序列的reward.

强化学习的组成:

  • 智能体(agent):个人理解就是模型
  • 状态(state)
  • 奖励(reward)
  • 动作(action)
  • 环境(environment)

RLbook2018中,将强化学习分为以下几个要素:

  • 智能体(agent)
  • 环境(environment)
  • 策略(policy):就是定义了一个映射,当感知到了environment处于何种state时应该做出的action
  • 奖励信号(reward signal):每一步,environment都会返回给agent一个数值作为reward。目标就是使reward长期最大化
  • 价值函数(value function):reward是即使反馈的信号,value function用来衡量长期运行的最优值
  • 模型(model):model是用来模拟environment,推断出environment的表现

强化学习的分类:

  • Model-based:基于model来解决强化学习问题。
  • Model-free:不需要使用model模拟environment。一般model-free直接在真实环境中学习,所以不需要构建model