首页 文章 个人博客 DADS:用于技能发现的无监督强化学习

DADS:用于技能发现的无监督强化学习

发布时间:2021-09-22编辑:RainNight阅读(63)

最近的研究表明,监督 强化学习(RL)能够超越模拟场景合成在现实世界中复杂的行为,如抓任意对象或学习敏捷的运动。然而,使用精心设计的特定于任务的奖励函数来教代理执行复杂行为的局限性也越来越明显。设计奖励函数可能需要大量的工程工作,这对于大量任务来说是站不住脚的。对于许多实际场景,设计奖励函数可能很复杂,例如,需要额外的环境仪器(例如,传感器来检测门的方向)或手动标记“目标”状态。考虑到生成复杂行为的能力受到这种奖励工程形式的限制,无监督学习将自己呈现为 RL 的一个有趣方向。

在有监督的 RL 中,来自环境的外在奖励函数引导智能体朝着所需的行为前进,加强带来所需环境变化的行为。在无监督 RL 中,代理使用内在奖励函数(例如好奇心在环境中尝试不同的事物)以生成自己的训练信号,以获得广泛的任务无关行为。内在奖励函数可以绕过工程外在奖励函数的问题,同时通用且广泛适用于多个代理和问题,无需任何额外设计。虽然最近许多研究 都 集中在无监督强化学习的不同方法上,但它仍然是一个严重不足的问题——如果没有环境奖励的指导,就很难学习有用的行为。代理 - 环境交互是否存在有意义的属性,可以帮助发现代理的更好行为(“技能”)?

在这篇文章中,我们展示了最近的两篇出版物,它们开发了用于技能发现的新型无监督 RL 方法。在“动态感知无监督技能发现”(DADS)中,我们将“可预测性”的概念引入了无监督学习的优化目标。在这项工作中,我们假设技能的一个基本属性是它们会带来可预测的环境变化。我们在我们的无监督技能发现算法中捕捉到了这个想法,并在广泛的模拟机器人设置中展示了适用性。在我们的后续工作“通过无监督离策略强化学习实现真实世界机器人技能”中,我们提高了 DADS 的样本效率,以证明无监督技能发现在现实世界中是可行的。

file

DADS 概述

DADS 设计了一个内在奖励函数,鼓励发现“可预测”和“多样化”技能。如果 (a) 环境中的变化因不同技能而不同(鼓励多样性)和 (b) 给定技能的环境变化是可预测的(可预测性),则内在奖励函数很高。由于 DADS 不会从环境中获得任何奖励,因此优化多样化的技能使代理能够捕获尽可能多的潜在有用行为。

为了确定一项技能是否可预测,我们训练了另一个神经网络,称为技能动态网络,在给定当前状态和正在执行的技能时预测环境状态的变化。技能动态网络对环境状态变化的预测能力越好,技能就越“可预测”。DADS 定义的内在奖励可以使用任何传统的强化学习算法来最大化。

file

该算法使几个不同的代理能够纯粹通过与环境的无奖励交互来发现可预测的技能。与之前的工作不同,DADS 可以扩展到高维连续控制环境,例如仿人双足机器人Humanoid。由于 DADS 与环境无关,因此它可以应用于面向运动和操作的环境。我们展示了不同连续控制代理发现的一些技能。

file

使用技能动态的基于模型的控制

DADS 不仅可以发现可预测的和潜在有用的技能,还可以采用一种有效的方法将学到的技能应用于下游任务。我们可以利用学到的技能动态来预测每个技能的状态转换。预测的状态转换可以链接在一起,以模拟任何学习技能的完整状态轨迹,而无需在环境中执行。因此,我们可以模拟不同技能的轨迹,并为给定任务选择获得最高奖励的技能。基于模型的规划此处描述的方法可以非常高效地进行样本,因为不需要额外的技能培训。与之前的方法相比,这是一个重要的进步,之前的方法需要额外的环境培训来结合所学的技能。

file

真实世界的结果

真实世界机器人技术中无监督学习的演示相当有限,结果仅限于模拟环境。在“通过无监督离策略强化学习实现的紧急现实世界机器人技能”中,我们通过离策略学习设置中的算法和系统改进,开发了我们早期算法的样本高效版本,称为 off-DADS。离策略学习能够使用从不同策略收集的数据来改进当前策略。特别是,重用以前收集的数据可以显着提高强化学习算法的样本效率。利用离策略学习的改进,我们训练D’Kitty(来自ROBEL的四足动物) 在现实世界中从随机策略初始化开始,没有来自环境或手工探索策略的任何奖励。我们通过优化 DADS 定义的内在奖励来观察具有不同步态和方向的复杂行为的出现。

file

未来工作

我们贡献了一种新颖的无监督技能发现算法,该算法具有广泛的适用性,可以在现实世界中执行。这项工作为未来的工作奠定了基础,机器人可以用最少的人力来解决广泛的任务。一种可能性是研究状态表示与 DADS 发现的技能之间的关系,以学习鼓励发现下游任务已知分布的技能的状态表示。另一个有趣的探索方向是技能动力学的制定,将高级规划和低级控制分开,并研究其对强化学习问题的普遍适用性。

网盘推荐

微信公众号

书籍标签