【机器人】Aether 多任务世界模型 | 4D动态重建 | 视频预测

Aether 是一个的世界模型，整合几何重建与生成建模的统一框架，实现类人空间推理能力。

来自ICCV 2025，该框架具有三大核心功能：

(1) 4D动态重建，(2) 动作条件视频预测， (3) 目标条件视觉规划。

代码地址：https://github.com/OpenRobotLab/Aether

论文地址：Aether: Geometric-Aware Unified World Modeling

论文复现：参考我这篇博客

下面是一个动作条件预测的示例：

Aether核心价值在于将传统上独立的三个计算机视觉任务统一到单一框架中，形成闭环的空间推理能力：

4D 动态重建

动作条件视频预测

目标条件视觉规划

看一下Aether模型框架，说实话这个图有点不直观：

如下图所示，是 AETHER 多任务世界模型的流程，核心围绕4D 重建、视频预测、视觉规划三大任务，通过多模态隐变量（latent）的处理与交互实现功能。

用统一的隐空间框架，让模型同时具备 “理解过去（4D 重建）、预测未来（视频预测）、规划路径（视觉规划）” 的能力，模拟类人空间推理逻辑。

Aether本质是一个：多模态融合的扩散模型框架

基于主流“视频扩散模型”构建，保留其 “前向加噪 - 反向去噪” 的核心机制，同时扩展为多模态融合的结构：

4D 动态重建的思路流程，如下图所示：

通过 “1、输入RGB-D视频→ 2、动态掩码→ 3、视频切片→ 4、相机参数粗估 + 5、精修→ 6、点云融合” 的步骤，实现对场景的3D重建与相机运动估计。

本质是 “从 2D 观测恢复 3D 结构” 的经典计算机视觉任务，结合了动态掩码的智能过滤与两阶段相机参数优化，提升重建精度与效率。

Dynamic Masking（动态掩码处理）

相机参数估计：粗估→精修的两阶段优化

首先：Coarse Camera Estimation（相机参数粗估）
输入：视频切片 + 深度信息（来自 RGB - D 视频）。
逻辑：基于切片的视觉与深度数据，初步计算相机的内外参数（如位置、姿态、焦距等），得到 “粗相机参数”。
特点：速度快，但精度有限，为后续精修提供初始值。
然后：Camera Refinement（相机参数精修）
输入：粗相机参数 + 切片的详细视觉信息。
逻辑：结合更精细的图像特征（如边缘、纹理），对粗估参数进行优化，得到 “精修相机参数”。
作用：提升相机参数精度，确保 3D 重建的空间一致性。

Video Prediction（视频预测）

目标：给定 “初始观测”（或 + 动作指令），生成符合物理规律的未来视频，验证模型 “预判动态演化” 的能力。
子任务：
- Action Free（无动作条件）：仅用首帧图像，自主预测后续帧；
- Action Conditioned（有动作条件）：结合首帧 + 动作指令（如相机轨迹），约束生成过程。

Visual Planning（视觉规划）

目标：给定 “初始状态” 和 “目标状态”，生成合理的中间过渡视频，验证模型 “推导空间路径” 的能力。
子任务：
- Action Free（无动作条件）：仅用初始 / 目标图像，自主规划路径；
- Action Conditioned（有动作条件）：结合初始 / 目标图像 + 动作指令，约束规划过程。

输入处理（下面的latent是指Aether模型框架中一个一个格子，）

模态编码：
- 图像：用预训练 VAE 编码为Image latent（黄色）；
- 动作：相机轨迹转射线图后编码为Action latent（蓝色）；
- 目标：目标图像编码为Image latent（黄色，用于规划任务）。
掩码策略：
- 视频预测（Action Free）：仅保留首帧Image latent，后续帧用Zero - padding（白色）；
- 视觉规划（Action Free）：保留首帧 + 目标帧Image latent，中间帧用Zero - padding（白色）；
- 带动作条件任务：额外拼接Action latent，约束生成方向。

模型推理

扩散去噪：基于 DiT 框架，模型学习从 “含噪 latent” 反向去噪，生成Image prediction（浅黄色）和Action prediction（浅蓝色，如有动作条件）；
多模态融合：深度预测（红色）与图像、动作隐变量协同，确保生成内容的几何合理性（如深度一致、运动符合物理规律）。

输出解码