Aether 是一个的世界模型,整合几何重建与生成建模的统一框架,实现类人空间推理能力。
来自ICCV 2025,该框架具有三大核心功能:
(1) 4D动态重建,(2) 动作条件视频预测, (3) 目标条件视觉规划。
代码地址:https://github.com/OpenRobotLab/Aether
论文地址:Aether: Geometric-Aware Unified World Modeling
论文复现:参考我这篇博客
下面是一个动作条件预测的示例:
1、核心能力:三位一体的世界建模
Aether核心价值在于将传统上独立的三个计算机视觉任务统一到单一框架中,形成闭环的空间推理能力:
4D 动态重建
- 从视频序列中同时估计深度和相机姿态,还原场景的时空动态(3D 空间 + 时间维度)。
- 例如,对一段运动视频,AETHER 可输出每帧的深度图和相机运动轨迹,构建完整的 4D场景结构。
动作条件视频预测
- 基于初始观测图像和相机轨迹(作为动作输入),预测未来的视频序列。
- 在导航任务中,相机轨迹直接对应路径,模型可据此生成沿路径移动的未来视图;
- 在机器人操作中,可预测机械臂末端相机运动带来的视觉变化。
目标条件视觉规划
- 给定初始观测图像和目标图像,规划出从初始状态到目标状态的 动作序列,并生成对应的中间视频。
- 例如,从办公室入口图像到会议室图像,模型可规划出最优移动路径并生成沿途视图。
2、模型框架
看一下Aether模型框架,说实话这个图有点不直观:
如下图所示,是 AETHER 多任务世界模型的流程,核心围绕4D 重建、视频预测、视觉规划三大任务,通过多模态隐变量(latent)的处理与交互实现功能。
- 先验注入:4D 重建为模型提供几何先验(深度、相机轨迹),让模型 “理解空间结构”
- 任务分化:根据 “是否有动作指令”“是否有目标状态”,分化出视频预测(侧重未来生成)和视觉规划(侧重路径推导)
- 隐变量交互:
Image/Action/Depth
隐变量在不同任务中灵活组合,通过 “输入缺失部分→模型预测补全” 的方式,实现多任务适配
用统一的隐空间框架,让模型同时具备 “理解过去(4D 重建)、预测未来(视频预测)、规划路径(视觉规划)” 的能力,模拟类人空间推理逻辑。
Aether本质是一个:多模态融合的扩散模型框架
基于主流“视频扩散模型”构建,保留其 “前向加噪 - 反向去噪” 的核心机制,同时扩展为多模态融合的结构:
- 前向过程:向干净的 latent 样本(包含颜色、深度、动作信息)逐步添加高斯噪声;
- 反向过程:通过学习的去噪模型,从含噪 latent 中恢复原始信息,目标是最小化预测噪声与真实噪声的差异。
- 条件控制:颜色视频条件、动作条件,通过不同的条件组合实现多任务切换。
- 重建任务:输入视频 latent,模型从完整视频中恢复深度和相机轨迹;
- 视频预测:输入初始观测帧的 latent,其余帧用零掩码,可额外输入相机轨迹作为动作条件;
- 目标条件视觉规划:输入初始和目标图像,中间用零填充,模型生成从初始到目标的路径视频。
3、4D 动态重建
4D 动态重建的思路流程,如下图所示:
通过 “1、输入RGB-D视频→ 2、动态掩码→ 3、视频切片→ 4、相机参数粗估 + 5、精修→ 6、点云融合” 的步骤,实现对场景的3D重建与相机运动估计。
本质是 “从 2D 观测恢复 3D 结构” 的经典计算机视觉任务,结合了动态掩码的智能过滤与两阶段相机参数优化,提升重建精度与效率。
Dynamic Masking(动态掩码处理)
- 作用:对输入的 RGB - D 视频施加动态掩码,保留关键区域(如人物、前景物体),屏蔽背景或干扰信息,为后续处理聚焦有效内容。
相机参数估计:粗估→精修的两阶段优化
-
首先:Coarse Camera Estimation(相机参数粗估)
输入:视频切片 + 深度信息(来自 RGB - D 视频)。
逻辑:基于切片的视觉与深度数据,初步计算相机的内外参数(如位置、姿态、焦距等),得到 “粗相机参数”。
特点:速度快,但精度有限,为后续精修提供初始值。 -
然后:Camera Refinement(相机参数精修)
输入:粗相机参数 + 切片的详细视觉信息。
逻辑:结合更精细的图像特征(如边缘、纹理),对粗估参数进行优化,得到 “精修相机参数”。
作用:提升相机参数精度,确保 3D 重建的空间一致性。
4、视频预测 与 视觉规划
Video Prediction(视频预测)
- 目标:给定 “初始观测”(或 + 动作指令),生成符合物理规律的未来视频,验证模型 “预判动态演化” 的能力。
- 子任务:
- Action Free(无动作条件):仅用首帧图像,自主预测后续帧;
- Action Conditioned(有动作条件):结合首帧 + 动作指令(如相机轨迹),约束生成过程。
Visual Planning(视觉规划)
- 目标:给定 “初始状态” 和 “目标状态”,生成合理的中间过渡视频,验证模型 “推导空间路径” 的能力。
- 子任务:
- Action Free(无动作条件):仅用初始 / 目标图像,自主规划路径;
- Action Conditioned(有动作条件):结合初始 / 目标图像 + 动作指令,约束规划过程。
输入处理(下面的latent是指
Aether模型框架中一个一个格子,)
- 模态编码:
- 图像:用预训练 VAE 编码为
Image latent
(黄色); - 动作:相机轨迹转射线图后编码为
Action latent
(蓝色); - 目标:目标图像编码为
Image latent
(黄色,用于规划任务)。
- 图像:用预训练 VAE 编码为
- 掩码策略:
- 视频预测(Action Free):仅保留首帧
Image latent
,后续帧用Zero - padding
(白色); - 视觉规划(Action Free):保留首帧 + 目标帧
Image latent
,中间帧用Zero - padding
(白色); - 带动作条件任务:额外拼接
Action latent
,约束生成方向。
- 视频预测(Action Free):仅保留首帧
模型推理
- 扩散去噪:基于 DiT 框架,模型学习从 “含噪 latent” 反向去噪,生成
Image prediction
(浅黄色)和Action prediction
(浅蓝色,如有动作条件); - 多模态融合:深度预测(红色)与图像、动作隐变量协同,确保生成内容的几何合理性(如深度一致、运动符合物理规律)。
输出解码
- 生成的
Image prediction
经 VAE 解码为 RGB 视频,Action prediction
解码为相机轨迹,验证生成内容的真实性与一致性。
5、模型训练
采用两阶段训练:
- 基于预训练的 CogVideoX - 5b - I2V 权重初始化,新增深度、动作相关投影层设为零,利用已有视频生成能力,降低训练难度,快速迁移知识。
- 先在 latent 空间用 MSE 损失训去噪模型,学习基础模态重建;
- 再解码到图像空间,加MS - SSIM(颜色视频)、尺度平移不变(深度)、点云损失(射线图),强化跨模态一致性,提升输出质量。
- 训练与推理均用空文本嵌入,摆脱文本依赖,专注视觉 - 几何模态交互,适配多任务场景。
分布式训练:(看了一下,这个训练资源太高了,告辞~)
- 用 FSDP + DDP 策略,80 张 A100 - 80GB GPU 加速,两周训练周期,批大小 32,
- AdamW 优化器 + OneCycle 调度,保障大规模训练高效稳定
分享完成~
相关文章推荐:
UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客
【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation-CSDN博客
【机器人】复现 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客
【机器人】复现 WMNav 具身导航 | 将VLM集成到世界模型中-CSDN博客
【机器人】复现 ECoT 具身思维链推理-CSDN博客
【机器人】复现 SG-Nav 具身导航 | 零样本对象导航的 在线3D场景图提示-CSDN博客
【机器人】复现 3D-Mem 具身探索和推理 | 3D场景记忆 CVPR 2025 -CSDN博客
【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动_embodied reasoner-CSDN博客
【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统-CSDN博客
【机器人】ForesightNav | 高效探索 动态场景 CVPR2025_pointnav中的指标介绍-CSDN博客
【机器人】复现 HOV-SG 机器人导航 | 分层 开放词汇 | 3D 场景图-CSDN博客
【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图-CSDN博客
【机器人】复现 Aether 世界模型 | 几何感知统一 ICCV 2025-CSDN博客