Genie Envisioner
Genie Envisioner
Genie Envisioner (GE) 是一个面向机器人操控的统一世界模型平台,将策略学习、仿真和评测整合到单一的视频生成框架中,包含四大核心组件:
- GE-Base – 指令条件驱动的大规模视频扩散模型,能建模机器人交互的空间、时间与语义动态。
- GE-Act – 轻量级并行动作解码器,将视觉潜在特征映射为可执行动作轨迹,实现跨机体泛化。
- GE-Sim – 基于视频生成的世界神经模拟器,支持闭环策略评估与快速迭代。
- EWMBench – 专为机器人视频世界模型设计的评测基准,量化视觉保真度、物理一致性和指令-动作对齐程度。
框架
GE-Bse - World Foundation Model
核心算法思想
- 任务建模:把机器人视频世界建模为 text+image → video 的条件生成问题。
- 生成框架:多视角(head + 双腕)条件的视频扩散 Transformer (DiT) 自回归生成器。
- 稀疏记忆机制 (Sparse Memory):在每步生成时,从历史序列稀疏采样若干关键帧,与当前观察拼接,形成统一的视觉条件,增强长时依赖推理。
- 跨视角一致性:局部块采用跨视角自注意力(cross‑view self‑attention) 保证不同相机视角的空间对齐。其余块将视角维折叠到 batch 维做独立推理,以降低复杂度。
输入→输出路径
- 视觉编码器提取多视角帧特征 → 加入视角嵌入 & 旋转位置编码。
- 指令经 T5‑XXL 编码器 → 文本嵌入。
- 视觉与文本通过多层 cross‑attention 融合。
- DiT 在潜空间中执行扩散反推(denoising),自回归地产生下一段多视角视频 chunk。
预训练策略
- 阶段1 多分辨率/多采样率训练(3–30Hz),提升对运动速度变化的鲁棒性。
- 阶段2 低帧率(5Hz) 对齐策略模块的时间粒度,减少动作映射延迟。
GE-Act - World Action Model
核心算法思想
- 结构上并联在 GE‑Base 的视觉主干上,共享视觉编码与跨模态对齐后的潜在特征。
- 采用轻量级自回归 DiT 分支处理初始化为噪声的动作 token,通过 cross‑attention 从视觉 token 中引入任务上下文。
- 动作解码:利用流匹配(flow‑matching)扩散在潜空间内将噪声动作轨迹渐进去噪,得到时序连续的电机/关节控制信号(如54步30Hz扭矩轨迹)。
推理优化: Slow‑Fast 异步模式
- 视频分支低频(5Hz)预测潜特征并缓存。
- 动作分支高频(30Hz)解码轨迹,条件始终来自缓存的视觉潜特征。
- 大幅降低视频生成开销,将整条轨迹生成延迟压缩至 200ms。
训练流程
- 预训练:固定 GE‑Base 参数,仅训练动作分支,学习从低频视觉到高频动作的映射。
- 任务适配:
- 视频适配阶段:微调 GE‑Base 视频分支以贴合新任务视觉特性。
- 动作专化阶段:端到端微调整个视频+动作管线,捕捉细粒度控制模式。
GE-Sim - World Simulator
核心算法思想
- 从 GE‑Base 迁移参数,加入动作条件分支:
- 空间条件:将末端执行器位姿(位置+姿态+夹爪开合)投影到像素平面,编码为姿态图像(pose image),与对应历史帧编码后逐元素相加,提供空间锚点。
- 时间条件:计算相邻位姿的增量向量(Δ位置, Δ姿态),经可学习编码器得到运动 token,并与参考图像风格 token 一同注入 DiT 各层 cross‑attention。
本质上是分层动作条件机制,融合了显式几何投影和隐式时序先验。
功能
- 支持闭环仿真:策略模型预测动作 → GE‑Sim 生成结果视频 → 反馈回策略。
- 可作为数据引擎:同一动作在不同场景生成多样视觉轨迹,提升策略泛化。
EWMBench
评价维度与算法指标
- 场景一致性 (SceneC):基于 DINOv2‑fine‑tune 的 patch 特征余弦相似度,衡量背景/视角稳定性。
- 动作轨迹质量:
- 空间对齐 (SA):Symmetric Hausdorff 距离的倒数。
- 时间对齐 (TA):归一化动态时间规整(NDTW) 距离的倒数。
- 动力学一致性 (DYN):速度/加速度分布的 Wasserstein 距离匹配。
- 语义一致性:
- 全局:VLM 生成视频摘要与指令做 BLEU 对比。
- 关键步骤:CLIP 相似度衡量生成与GT的子动作匹配。
- 逻辑正确性:检测物理或常识冲突并惩罚。
- 多样性:同一指令生成视频的 CLIP 相似度差异。