Genie Envisioner

Genie Envisioner (GE) 是一个面向机器人操控的统一世界模型平台,将策略学习、仿真和评测整合到单一的视频生成框架中,包含四大核心组件:

  • GE-Base – 指令条件驱动的大规模视频扩散模型,能建模机器人交互的空间、时间与语义动态。
  • GE-Act – 轻量级并行动作解码器,将视觉潜在特征映射为可执行动作轨迹,实现跨机体泛化。
  • GE-Sim – 基于视频生成的世界神经模拟器,支持闭环策略评估与快速迭代。
  • EWMBench – 专为机器人视频世界模型设计的评测基准,量化视觉保真度、物理一致性和指令-动作对齐程度。

框架

GE-Bse - World Foundation Model

核心算法思想

  • 任务建模:把机器人视频世界建模为 text+image → video 的条件生成问题。
  • 生成框架:多视角(head + 双腕)条件的视频扩散 Transformer (DiT) 自回归生成器。
  • 稀疏记忆机制 (Sparse Memory):在每步生成时,从历史序列稀疏采样若干关键帧,与当前观察拼接,形成统一的视觉条件,增强长时依赖推理。
  • 跨视角一致性:局部块采用跨视角自注意力(cross‑view self‑attention) 保证不同相机视角的空间对齐。其余块将视角维折叠到 batch 维做独立推理,以降低复杂度。

输入→输出路径

  1. 视觉编码器提取多视角帧特征 → 加入视角嵌入 & 旋转位置编码。
  2. 指令经 T5‑XXL 编码器 → 文本嵌入。
  3. 视觉与文本通过多层 cross‑attention 融合。
  4. DiT 在潜空间中执行扩散反推(denoising),自回归地产生下一段多视角视频 chunk。

预训练策略

  1. 阶段1 多分辨率/多采样率训练(3–30Hz),提升对运动速度变化的鲁棒性。
  2. 阶段2 低帧率(5Hz) 对齐策略模块的时间粒度,减少动作映射延迟。

GE-Act - World Action Model

核心算法思想

  • 结构上并联在 GE‑Base 的视觉主干上,共享视觉编码与跨模态对齐后的潜在特征。
  • 采用轻量级自回归 DiT 分支处理初始化为噪声的动作 token,通过 cross‑attention 从视觉 token 中引入任务上下文。
  • 动作解码:利用流匹配(flow‑matching)扩散在潜空间内将噪声动作轨迹渐进去噪,得到时序连续的电机/关节控制信号(如54步30Hz扭矩轨迹)。

推理优化: Slow‑Fast 异步模式

  • 视频分支低频(5Hz)预测潜特征并缓存。
  • 动作分支高频(30Hz)解码轨迹,条件始终来自缓存的视觉潜特征。
  • 大幅降低视频生成开销,将整条轨迹生成延迟压缩至 200ms。

训练流程

  1. 预训练:固定 GE‑Base 参数,仅训练动作分支,学习从低频视觉到高频动作的映射。
  2. 任务适配:
    • 视频适配阶段:微调 GE‑Base 视频分支以贴合新任务视觉特性。
    • 动作专化阶段:端到端微调整个视频+动作管线,捕捉细粒度控制模式。

GE-Sim - World Simulator

核心算法思想

  • 从 GE‑Base 迁移参数,加入动作条件分支:
    • 空间条件:将末端执行器位姿(位置+姿态+夹爪开合)投影到像素平面,编码为姿态图像(pose image),与对应历史帧编码后逐元素相加,提供空间锚点。
    • 时间条件:计算相邻位姿的增量向量(Δ位置, Δ姿态),经可学习编码器得到运动 token,并与参考图像风格 token 一同注入 DiT 各层 cross‑attention。

本质上是分层动作条件机制,融合了显式几何投影和隐式时序先验。

功能

  • 支持闭环仿真:策略模型预测动作 → GE‑Sim 生成结果视频 → 反馈回策略。
  • 可作为数据引擎:同一动作在不同场景生成多样视觉轨迹,提升策略泛化。

EWMBench

评价维度与算法指标

  1. 场景一致性 (SceneC):基于 DINOv2‑fine‑tune 的 patch 特征余弦相似度,衡量背景/视角稳定性。
  2. 动作轨迹质量:
    • 空间对齐 (SA):Symmetric Hausdorff 距离的倒数。
    • 时间对齐 (TA):归一化动态时间规整(NDTW) 距离的倒数。
    • 动力学一致性 (DYN):速度/加速度分布的 Wasserstein 距离匹配。
  3. 语义一致性:
    • 全局:VLM 生成视频摘要与指令做 BLEU 对比。
    • 关键步骤:CLIP 相似度衡量生成与GT的子动作匹配。
    • 逻辑正确性:检测物理或常识冲突并惩罚。
  4. 多样性:同一指令生成视频的 CLIP 相似度差异。