DRL

Deep Reinforcement Learning

概念

On-Policy & Off-Policy

  • On: 使用自己当前策略的数据进行更新 (SARSA、PPO), 更稳定,收敛更缓慢
  • Off: 使用外部行为策略的数据来优化目标策略 (Q-Learning、DQN、DDPG、TD3、SAC), 更复杂,可能不稳定但训练效率高

actor-critic RL

Actor: 负责输出行为策略,即在当前状态下应该采取什么动作, 本质上是一个策略网络(Policy Network),学习如何“行动” Critic: 负责评估 actor 的动作好坏,计算状态值(V值)或动作值(Q值), 本质上是一个价值网络(Value Network),指导 actor 如何优化策略

Model

  • model-free: 不建立环境模型,直接从交互经验中学习策略或价值函数。收敛稳定,但探索困难
  • model-based: 构建环境动态的模型,用它来模拟未来并辅助策略学习,。可快速学习,但模型误差影响较大

动作空间

  • 低级:关节(扭矩、车轮速度)、运动指令
  • 中级:任务空间指令(EEpose)
  • 高级:时间扩展的任务空间命令或子程序

观察空间

  • 低维:状态估计向量(本体感受、物体位置、任务信息)
  • 高维:图像、激光雷达

奖励函数

  • 稀疏:智能体仅在完成任务或达到目标时才收到奖励,其他时间不反馈任何奖励(或为零)
  • 稠密:每一步或每个动作都会给予一定的奖励或惩罚,引导智能体逐步接近目标

Survey: Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes

环境

采用逐步增加任务难度的学习课程来促进训练

传感器

减少模拟与真实传感器输入之间的差距:注入模拟传感器噪声、后处理深度图像、从真实世界样本学习视觉编码器

学习

策略可通过自监督学习、跨模态嵌入匹配或采用更大的模型(Transformer)来提升表示能力

同时学习多种技能有助于提升策略的鲁棒性:

  • 一种方法是创建一组强化学习策略(51, 32, 50),每个策略针对特定技能进行优化,然后训练一个高级策略来选择最优技能
  • 另一种方法是通过背归(BC)从专用技能策略中蒸馏出单一策略(50)

利用现实世界滚动(real-world rollouts)模拟更新策略,以进一步将策略泛化到新场景,而无需准确的模拟

分层,高级策略生成所需的末端执行器轨迹,由低级策略执行

双足

基于模型的方法常被用于辅助强化学习(RL),具体方式包括生成参考步态以引导RL(55, 58, 63)或处理低级控制以支持高级RL策略(60)

状态和动作记忆的作用特别值得注意(55),尤其是长短期记忆的结合(63),因此,大多数研究在策略架构中采用了序列模型(63, 61, 55, 57, 59, 62)

无人机

DRL在悬停控制中的鲁棒性优于经典反馈控制器(如PID)(65, 67),在航点跟踪任务中的跟踪误差通常大于精心设计的优化型控制器(64, 66)

RL相较于最优控制的根本优势在于其能够实现规划与控制的联合优化(21),使其成为敏捷导航(如竞速)的理想候选方案

强化学习相较于基于模型的方法的优势在于其能够直接优化长时域竞速任务的目标。然而,基于深度强化学习的策略仍不如人类飞行员稳健

将演员-批评者强化学习与差分MPC相结合,在提升稳健性方面展现出潜力(103)

Legged

通过分层架构可提升训练效率,其中高级策略控制预训练的低级移动策略(95, 96, 97, 98)

Manipulation

分类:Pick & place, Contact-rich 高接触操作, In-hand 手持操作, Non-prehensile 非抓握操作

特权学习

Privileged Learning 是指在训练阶段引入额外的信息(特权信息),以帮助智能体更高效地学习策略或模型,但这些信息在测试或部署阶段不可用

教师-学生架构:在知识蒸馏中,教师网络可以访问特权信息,帮助指导学生网络的学习

问题

Gangapurwala 等(36)指出,当动作空间在时间上扩展或更倾向于确定性控制动作时,基于策略的强化学习可能效果较差

动作空间

  • 低维:动作空间与自由度相关;关节需要高频控制,推理时间受限
  • 高维:设计复杂、扩展性受限

SOTA

PPO(70):使用基于策略的无模型强化学习