Reinforcement-learning

发表于 2019-12-06 | 分类于笔记 | |

简介

强化学习的两大特点：

试错搜索：强化学习过程中不会有label反馈给模型，而是让模型学习哪种action可以获得最大的reward。
延迟奖励：大部分情况下，当前的action不但会影响此刻返回的reward，还会影响接下来序列的reward.

强化学习的组成：

智能体（agent）：个人理解就是模型
状态（state）
奖励（reward）
动作（action）
环境（environment）

RLbook2018中，将强化学习分为以下几个要素：

智能体（agent）
环境（environment）
策略（policy）：就是定义了一个映射，当感知到了environment处于何种state时应该做出的action
奖励信号(reward signal)：每一步，environment都会返回给agent一个数值作为reward。目标就是使reward长期最大化
价值函数（value function）：reward是即使反馈的信号，value function用来衡量长期运行的最优值
模型（model）：model是用来模拟environment，推断出environment的表现

强化学习的分类：

Model-based：基于model来解决强化学习问题。
Model-free：不需要使用model模拟environment。一般model-free直接在真实环境中学习，所以不需要构建model

分享到：收藏夹复制网址邮件微信 QQ空间腾讯微博豆瓣一键分享更多