当前位置: 首页 > biancheng >正文

强化学习——Modle-free DRL算法

1. Modle-free DRL算法

  • TRPO,PPO
  • DDPG及其拓展(D4PG,TD3等)
  • Soft Q-Learning, Soft Actor-Critic

(1) PPO算法

  • 目前最主流的DRL算法,同时面向离散控制和连续控制 但是PPO是一种on-policy的算法,也就是PPO面临着严重的sample inefficiency,需要巨量的采样才能学习,这对于真实的机器人训练来说,是无法接受的。

(2)DDPG及其拓展

  • 面向连续控制的off policy算法
  • 相对PPO 更sample efficient
  • DDPG训练的是一种确定性策略deterministic policy,即每一个state下都只考虑最优的一个动作

(3)Soft Actor-Critic (SAC)

  • 是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法
  • 和DDPG相比,Soft Actor-Critic使用的是随机策略stochastic policy,相比确定性策略具有一定的优势
  • Soft Actor-Critic在公开的benchmark中取得了非常好的效果,并且能直接应用到真实机器人上

Maximum Entropy Reinforcement learning

  • 最大熵RL,除学习一个policy使得累加的reward期望值最大,还要求policy的每一次输出的action 熵entropy最大

  • 让策略随机化,即输出的每一个action的概率尽可能分散,而不是集中在一个action上

    最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action,有用的trajectory。

Stochastic policy随机策略

Stochastic policy随机策略在实际机器人控制上往往是更好的做法。比如我们让机器人抓取一个水杯,机器人是有无数条路径去实现这个过程的,而并不是只有唯一的一种做法。因此,我们就需要drl算法能够给出一个随机策略,在每一个state上都能输出每一种action的概率,比如有3个action都是最优的,概率一样都最大,那么我们就可以从这些action中随机选择一个做出action输出。
最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action,有用的trajectory。对比DDPG的deterministic policy的做法,看到一个好的就捡起来,差一点的就不要了,而最大熵是都要捡起来,都要考虑

基于最大熵的RL算法有什么优势?

以前用deterministic policy的算法,我们找到了一条最优路径,学习过程也就结束了。现在,我们还要求熵最大,就意味着神经网络需要去explore探索所有可能的最优路径,这可以产生以下多种优势:

  • 学到policy可以作为更复杂具体任务的初始化。因为通过最大熵,policy不仅仅学到一种解决任务的方法,而是所有all。因此这样的policy就更有利于去学习新的任务。比如我们一开始是学走,然后之后要学朝某一个特定方向走。

  • 更强的exploration能力,这是显而易见的,能够更容易的在多模态reward (multimodal
    reward)下找到更好的模式。比如既要求机器人走的好,又要求机器人节约能源

  • 更robust鲁棒,更强的generalization。因为要从不同的方式来探索各种最优的可能性,也因此面对干扰的时候能够更容易做出调整。(干扰会是神经网络学习过程中看到的一种state,既然已经探索到了,学到了就可以更好的做出反应,继续获取高reward)

A3C虽然用到最大熵进行更好做exploration,但是整体的训练目标依然只考虑reward。

相关文章:

  • switch循环语句
  • 牛客练习赛#84 F 莫比乌斯反演+杜教筛+技巧+斐波那契数列和gcd的结论+矩阵快速幂
  • ZZNUOJ_用C语言编写程序实现1342:支配值数目(附完整源码)
  • java毕业设计后勤管理系统餐饮评价监督系统(附源码、数据库)
  • 前端基础学习笔记
  • 【TS】联合类型--类型断言--类型推断
  • 谈笑风声的秘密
  • QT影城网上售票系统
  • NetCDF数据在ArcMap中的使用
  • 打怪升级(考验思路)