少女祈祷中...

为了一门水课汇报而看的论文:(

深度强化学习的低样本效率奖励函数设计的困难阻碍了其在实际应用中的使用,

两个问题:

  • 低样本效率导致的问题是:智能体需要与环境进行大量的交互才能学习到一个有效的策略。(例如在没有信号灯的交叉口穿越或在密集交通中进行无保护的左转。)
  • 奖励函数的设计:设计不当的奖励函数可能会导致智能体错误地利用奖励函数并坚持意外的行为,这样下来调参比较费时间。尽管可以使用一些技术(如逆强化学习)从人类驾驶数据中学习奖励函数,但通常假设奖励函数的某些结构(例如,不同手工制作特征的线性组合),这在实践中可能不成立。

本文提出了一个新颖的框架,将人类先验知识整合到DRL中,以提高样本效率并节省设计复杂奖励函数的努力。三个部分:专家演示、策略推导和强化学习

  • 专家演示:人类专家展示了他们执行任务的过程,他们的行为被存储为状态-动作对。
  • 策略推导:通过行为克隆和依赖于演示数据的不确定性估计,推导出模仿专家策略。
  • 强化学习:模仿专家策略被用来指导DRL智能体的学习,通过规范DRL智能体策略和模仿专家策略之间的KL散度。

相关工作

先验知识

利用人类先验知识进行学习并不是首次提出,前人的一些工作:

  • 提出了在基于RL的控制系统中添加一个安全检查模块,以防止不安全的探索并加速训练。
  • 提出了一种实时人类指导为基础的学习方法,允许人类专家实时介入训练过程并提供指导,从而使智能体能够从人类指导和自我探索中学习。

专家演示

  • 使用专家演示通过模仿(监督)学习预训练策略,以将策略初始化为合理的性能水平,然后应用RL以获得更好的策略
  • 将专家演示添加到经验回放缓冲区中,用于离线RL算法,并从专家演示和智能体交互中采样经验以更新策略
  • ……

背景知识

行为克隆

因为专家策略不能直接访问,因此大多数使用的方法是通过模仿学习来学习专家演示,来对专家策略进行近似。

专家演示即为一个数据集$D^E:{\tau_i}$,$\tau_i$是专家演示的每一条轨迹,由状态-动作对组成,模拟专家策略用$\pi ^E$表示,用下式进行优化:

image-20240326133327321

在通常的行为克隆中,专家策略是一个参数化神经网络$\theta$,网络的输入是一个状态向量,输出则是一个动作:
$$
a_t=\pi_\theta(s)
$$
优化路径为:

image-20240326134743328

但是这种方法得到的是确定性策略,但是需要得到的是一个动作分布,来规范RL的策略。

策略不确定性

策略不确定性是指:对于同一个状态,输出的动作并不唯一。内在原因其实是因为对于一个人类专家,面对同一个状态也可能会产生多种可行的动作。

因此,本文作者采取参数概率分布的形式来输出动作,而不是一个确定的动作。假设动作服从高斯分布,然后通过下式来优化策略:

image-20240326140653445

模型不确定性

模型不确定性是指:策略的预测均值和方差对于不在训练数据集中的数据仍然是不确定和不可靠的。它源于在状态空间的某些区域缺乏训练数据,并且量化了模型对其动作输出的置信度。估计这种不确定性对于我们提出的方法中的模仿专家策略至关重要,因为RL智能体经常会遇到不在演示数据集中的状态,因此需要对分布外状态的置信度进行量化。

本文使用多个网络M(采用随机策略),使用不同的随机初始化参数和训练数据来进行训练,将最终的均值和方差来进行混合:

image-20240326141630523

这种策略类似于集成学习。

深度强化学习与模仿专家先验

框架

整体框架如下:

image-20240326142544542

策略推倒部分,加入了策略不确定性和模型不确定性,需要单独说明下。

当专家策略的方差比较小,证明策略对输出比较自信,这时直接采取专家策略,避免不必要的探索;当专家策略的方差很大时,其均值就不是很合理,这种情况下,应该在接近专家策略的情况下,进行更多的探索,以探索到更好的策略。

演员评论家算法

本文提出的演员-评论家算法是一种结合了模仿学习(Imitation Learning)和强化学习(Reinforcement Learning, RL)的方法,用于提高自动驾驶智能体的学习效率。该算法包含两个主要部分:演员(Actor)和评论家(Critic)。演员负责生成动作,而评论家负责评估动作的价值。

算法中包含以下网络:

  • 两个Q函数网络$Q_{\Phi_1}$和$Q_{\Phi_2}$,用于评估状态-动作对的价值。
  • 一个价值函数网络$V_\psi$,用于评估状态的价值。
  • 一个策略网$\pi_\theta$,用于生成动作。

image-20240326151252860

image-20240326151317752