【Reinforcement Learning】什么是强化学习以及算法分类

  • Post author:
  • Post category:其他




一、什么是强化学习

强化学习是一类算法,让计算机从什么都不懂,通过不断尝试,从错误中学习,找到规律,从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试,更新自己的行为准则。

计算机需要一位虚拟的老师,他要做的事情就是给行为打分,计算机只需要记住高分和低分对应的行为,下一次只需要执行高分行为就能得到高分(分数导向性)。类似于监督学习中学习正确标签,不同的是,强化学习最开始没有准备好的数据和标签,是在不断的尝试中得到数据和对应的标签(奖励值)。

强化学习是和监督学习、无监督学习并列的第三种机器学习方法,如下图:

在这里插入图片描述

强化学习包含了很多经典的算法(在后面一节会详细说明不同的分类方式):

  • 通过价值选行为

    • Q Learning(表格学习)
    • Sarsa(表格学习)
    • Deep Q Network(神经网络学习)
  • 直接选行为

    • Policy Gradients
  • 想象环境并从中学习

    • Model based RL



二、强化学习建模

在这里插入图片描述

强化学习的思路:大脑表示算法执行个体,通过操作个体来做决策,即是选择一个行为(action);地球表示研究的环境,它有自身的状态(state),当选择行为



A

t

A_t







A










t





















后,环境状态会发生变化,同时得到一个延迟奖励(reward)。然后个体选择下一次的行为,环境状态改变,获得奖励…



三、强化学习方法分类


分类1:不理解环境(Model-Free RL)和理解环境(Model-Based RL)


在这里插入图片描述

在这里插入图片描述

Model-Based RL多出一个虚拟环境,方法和Model-Free RL中一样。Model-Based RL具有想象力,通过想象力预判断下一步的行为,而Model-Free RL只能按部就班。

在这里插入图片描述


分类2:基于概率(Policy-Based RL)和基于价值(Value-Based RL)


在这里插入图片描述

基于概率的RL可以处理连续的东西,而基于价值不能处理,但是基于概率的缺点是概率更高,不一定会被选中。

在这里插入图片描述


分类3:回合更新(Monte-Carlo update)和单步更新(Temporal-Difference update)


在这里插入图片描述

单步更新可以边执行边更新。

在这里插入图片描述


分类4:在线学习(On-Policy)和离线学习(Off-Policy)


在这里插入图片描述

在这里插入图片描述



版权声明:本文为qq_16763983原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。