Genie Envisioner

Aug 12, 2025

Genie Envisioner

Genie Envisioner (GE) 是一个面向机器人操控的统一世界模型平台，将策略学习、仿真和评测整合到单一的视频生成框架中，包含四大核心组件：

GE-Base – 指令条件驱动的大规模视频扩散模型，能建模机器人交互的空间、时间与语义动态。
GE-Act – 轻量级并行动作解码器，将视觉潜在特征映射为可执行动作轨迹，实现跨机体泛化。
GE-Sim – 基于视频生成的世界神经模拟器，支持闭环策略评估与快速迭代。
EWMBench – 专为机器人视频世界模型设计的评测基准，量化视觉保真度、物理一致性和指令-动作对齐程度。

框架

GE-Bse - World Foundation Model

核心算法思想

任务建模：把机器人视频世界建模为 text+image → video 的条件生成问题。
生成框架：多视角（head + 双腕）条件的视频扩散 Transformer (DiT) 自回归生成器。
稀疏记忆机制 (Sparse Memory)：在每步生成时，从历史序列稀疏采样若干关键帧，与当前观察拼接，形成统一的视觉条件，增强长时依赖推理。
跨视角一致性：局部块采用跨视角自注意力(cross‑view self‑attention) 保证不同相机视角的空间对齐。其余块将视角维折叠到 batch 维做独立推理，以降低复杂度。

输入→输出路径

视觉编码器提取多视角帧特征 → 加入视角嵌入 & 旋转位置编码。
指令经 T5‑XXL 编码器 → 文本嵌入。
视觉与文本通过多层 cross‑attention 融合。
DiT 在潜空间中执行扩散反推（denoising），自回归地产生下一段多视角视频 chunk。

预训练策略

阶段1 多分辨率/多采样率训练（3–30Hz），提升对运动速度变化的鲁棒性。
阶段2 低帧率(5Hz) 对齐策略模块的时间粒度，减少动作映射延迟。

GE-Act - World Action Model

核心算法思想

结构上并联在 GE‑Base 的视觉主干上，共享视觉编码与跨模态对齐后的潜在特征。
采用轻量级自回归 DiT 分支处理初始化为噪声的动作 token，通过 cross‑attention 从视觉 token 中引入任务上下文。
动作解码：利用流匹配（flow‑matching）扩散在潜空间内将噪声动作轨迹渐进去噪，得到时序连续的电机/关节控制信号（如54步30Hz扭矩轨迹）。

推理优化: Slow‑Fast 异步模式

视频分支低频（5Hz）预测潜特征并缓存。
动作分支高频（30Hz）解码轨迹，条件始终来自缓存的视觉潜特征。
大幅降低视频生成开销，将整条轨迹生成延迟压缩至 200ms。

训练流程

预训练：固定 GE‑Base 参数，仅训练动作分支，学习从低频视觉到高频动作的映射。
任务适配：
- 视频适配阶段：微调 GE‑Base 视频分支以贴合新任务视觉特性。
- 动作专化阶段：端到端微调整个视频+动作管线，捕捉细粒度控制模式。

GE-Sim - World Simulator

核心算法思想

从 GE‑Base 迁移参数，加入动作条件分支：
- 空间条件：将末端执行器位姿（位置+姿态+夹爪开合）投影到像素平面，编码为姿态图像（pose image），与对应历史帧编码后逐元素相加，提供空间锚点。
- 时间条件：计算相邻位姿的增量向量（Δ位置, Δ姿态），经可学习编码器得到运动 token，并与参考图像风格 token 一同注入 DiT 各层 cross‑attention。

本质上是分层动作条件机制，融合了显式几何投影和隐式时序先验。

功能

支持闭环仿真：策略模型预测动作 → GE‑Sim 生成结果视频 → 反馈回策略。
可作为数据引擎：同一动作在不同场景生成多样视觉轨迹，提升策略泛化。

EWMBench

评价维度与算法指标

场景一致性 (SceneC)：基于 DINOv2‑fine‑tune 的 patch 特征余弦相似度，衡量背景/视角稳定性。
动作轨迹质量：
- 空间对齐 (SA)：Symmetric Hausdorff 距离的倒数。
- 时间对齐 (TA)：归一化动态时间规整(NDTW) 距离的倒数。
- 动力学一致性 (DYN)：速度/加速度分布的 Wasserstein 距离匹配。
语义一致性：
- 全局：VLM 生成视频摘要与指令做 BLEU 对比。
- 关键步骤：CLIP 相似度衡量生成与GT的子动作匹配。
- 逻辑正确性：检测物理或常识冲突并惩罚。
多样性：同一指令生成视频的 CLIP 相似度差异。