GeoDrive:基于三维几何信息有精确动作控制的驾驶世界模型

25年5月来自北大、理想汽车和 UC Berkeley 的论文“GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control”。

世界模型的最新进展彻底改变动态环境模拟,使系统能够预见未来状态并评估潜在行动。在自动驾驶中,这些功能可帮助车辆预测其他道路使用者的行为、执行风险意识规划、加速模拟训练并适应新场景,从而提高安全性和可靠性。当前的方法在保持强大的 3D 几何一致性或在遮挡处理期间累积伪影方面表现出不足,这两者对于自动导航任务中的可靠安全评估都至关重要。为了解决这个问题,GeoDrive 将强大的 3D 几何条件明确地集成到驾驶世界模型中,以增强空间理解和动作可控性。具体而言,首先从输入帧中提取 3D 表示,然后根据用户指定的自车轨迹获取其 2D 渲染。为了实现动态建模,提出一个训练期间的动态编辑模块,通过编辑车辆的位置来增强渲染。大量实验表明,该方法在动作精度和 3D 空间-觉察方面均显著优于现有模型,从而能够构建更逼真、适应性更强、更可靠的场景建模,从而实现更安全的自动驾驶。此外,该模型可以泛化到新轨迹,并提供交互式场景编辑功能,例如目标编辑和目标轨迹控制。

GeoDrive 如图所示:

请添加图片描述

给定初始参考图像 I_0 和自车轨迹 {C_t},框架合成遵循输入轨迹的真实未来帧。利用参考图像中的 3D 几何信息来指导世界建模。首先,重建 3D 表示,然后沿着用户指定的轨迹渲染视频序列,并进行动态物体处理。渲染后的视频为生成遵循输入轨迹的时空一致视频提供几何指导。其训练流水线如图所示:

请添加图片描述

从参考图像中提取 3D 表示

为了利用 3D 信息进行 3D 一致性生成,首先从单幅输入图像 I_0 构建 3D 表示。采用 MonST3R [81],这是一个现成的密集立体视觉模型,可以同时预测 3D 几何形状和相机姿态,这与训练范式一致。在推理过程中,复制参考图像以满足 MonST3R 的跨视图匹配要求。

给定 RGB 帧 {I_t},MonST3R 通过跨帧跨视图特征匹配来预测每像素 3D 坐标 {O_t} 和置信度得分 {D_t}。

将 D_0 设置为 τ(通常 τ = 0.65),第 t 个参考帧的彩色点云结果如下:

请添加图片描述

为了抵消序列中有效匹配和无效匹配之间的不平衡,用焦点损失来训练置信度图 D_0。此外,为了将静态场景几何与运动目标分离,MonST3R 采用基于 Transformer 的解耦器。该模块处理参考帧的初始特征(跨视图上下文进行丰富),并将其分离为静态和动态部分。解耦器使用可学习的提示 token 来划分注意图:静态 token 关注较大的平面,动态 token 关注紧凑且运动丰富的区域。通过排除动态对应关系,获得稳健的相机姿态估计:

请添加图片描述

利用动态编辑渲染 3D 视频

为了实现精确的输入轨迹跟踪,模型会渲染一段视频,作为生成过程的视觉引导。用标准射影几何技术,通过用户提供的每个相机配置 C_t = (R_t, T_t, f_t) 将参考点云 P_0 投影。每个 3D 点 Pw_i ∈ P_0 经过刚性变换到相机坐标系 Pc_i = R_tPw_i +T_t,然后使用相机的内参矩阵 K_t 进行透视投影,得到图像坐标 p_i。仅考虑 P_ic_z ∈ [0.1, 100.0 m] 深度范围内的有效投影,并使用 z-缓冲处理遮挡,最终为每个相机位置生成渲染视图 I ̃_t。

静态渲染的局限性。由于仅使用第一帧点云,渲染场景在整个序列中保持静态。这与现实世界的自动驾驶环境存在显著差异,因为在现实世界中,车辆和其他动态物体处于持续运动状态。渲染的静态特性未能捕捉到区分自动驾驶数据集和传统静态场景的动态本质。

动态编辑。为了解决这一局限性,提出动态编辑来生成具有静态背景和移动车辆的渲染图 R。具体而言,当用户为场景中的移动车辆提供一系列二维边框信息时,会动态调整它们的位置,从而在渲染图中营造出运动的视觉效果。这种方法不仅可以在生成过程中引导自身车辆的轨迹,还可以引导场景中其他车辆的移动。如图展示此过程。这种设计显著缩小静态渲染与动态现实世界场景之间的差异,同时实现对其他车辆的灵活控制——这是 Vista [13] 和 GAIA [23] 等现有方法无法实现的功能。

请添加图片描述

双-分支控制实现时空一致性

虽然基于点云的渲染能够准确地保留视图之间的几何关系,但它存在一些视觉质量问题。渲染后的视图通常包含大量遮挡、由于传感器覆盖范围有限而导致的区域缺失,并且与真实相机图像相比视觉保真度较低。为了提升质量,调整潜在视频扩散模型 [5],以优化投影视图,同时通过专门的调节来保持 3D 结构保真度。

在此基础上,进一步改进将上下文特征集成到预训练扩散Transformer (DiT) 中的方案,这借鉴 VideoPainter [2] 提出的方法。然而,根据自身特定需求引入关键的区别。采用动态渲染来捕捉时间和上下文的细微差别,从而为生成过程提供更具自适应性的表示。令 δ_φ(z_t, t, C) 表示修改后的 DiT 主干网络 δ_φ 第 i 层的特征输出,其中 z_R 表示通过 VAE 编码器 E 的动态渲染潜特征,z_t 是时间步长 t 的噪声潜特征。

这些渲染图通过轻量级条件编码器进行处理,该编码器提取必要的背景线索,而无需复制主干架构的大量部分。将条件编码器的特征集成到冻结的 DiT 中,其公式如下:

请添加图片描述

其中 γenc_φ 表示处理噪声潜变量 z_t 的连接输入和渲染潜变量 z_R 的条件编码器,M 表示 DiT 主干网中的总层数。W 是一个可学习的线性变换,初始化为零,以防止早期训练中的噪声崩溃。提取的特征以结构化的方式选择性地融合到冻结的 DiT 中,确保只有相关的上下文信息引导生成过程。最终的视频序列通过冻结的 VAE 解码器 D 解码为 Iˆ_t = D(z(0)_t)。

通过将训练限制在条件编码器 g_φ(占总参数的 6%),保持预训练模型的照片级真实感,并获得精确的相机控制。时间相干性自然地源于视频 Transformer 的动态建模以及跨帧 {I ̃_t} 特征的几何一致性,从而实现忠实轨迹的视频合成。

训练配置。仅在 nuScenes [7] 上进行训练,通过 MonST3R 处理每个片段,以获得公制尺度的 3D 重建和摄像机轨迹。初始帧 P_0 的 3D 重建通过可微分光栅化器沿估计的轨迹进行投影渲染,其中动态编辑利用 2D 边框注释来编辑车辆位置。整理 25,109 个视频-条件对用于训练。冻结基础扩散模型 (CogVideo-5B-I2V [22]),同时以 1 × 10−5 的学习率对条件编码器进行 28,000 步训练,持续 4 天。

基准和基线方法。将 GeoDrive 与两个最相关的基线模型(Vista[13]、Terra[1])以及其他几个驾驶世界模型进行了比较,这几个基线模型以单幅图像和自我动作为条件。遵循 Vista 的协议,从跨越 25 帧剪辑的传感器和标定数据中计算轨迹,作为它们的条件输入。通过在 GT 视频上运行 MonST3R 来估计条件相机姿势。虽然以不同的模态为条件,但所有方法的轨迹都是从同一个真值视频剪辑中提取的,以确保动作条件一致。在 NuScenes 验证集上评估所有方法。为了评估轨迹控制精度,从 1087 个具有平衡驾驶轨迹的视频子集进行采样。视觉质量通过 PSNR、SSIM[63]、LPIPS[29]、FID[20]和 FVD[57]进行量化。而轨迹保真度指标采用平均位移误差(ADE)和最终位移误差(FDE)。

将 GeoDrive 与场景重建方法 StreetGaussians [73] 进行比较。在 Waymo 验证集上进行评估,并筛选出 5 个场景进行测试。新轨迹是通过水平移动前置摄像头的原始轨迹生成的。由于新轨迹没有真实值,用 FID 和 FVD 来评估生成质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/84265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java高频面试之并发编程-25

hello啊,各位观众姥爷们!!!本baby今天又来报道了!哈哈哈哈哈嗝🐶 面试官:CAS都有哪些问题?如何解决? CAS 的问题及解决方案 CAS(Compare and Swap&#xff0…

从碳基羊驼到硅基LLaMA:开源大模型家族的生物隐喻与技术进化全景

在人工智能的广袤版图上,一场从生物学羊驼到数字智能体的奇妙转变正在上演。Meta推出的LLaMA(Large Language Model Meta AI)系列模型,不仅名字源自美洲驼(llama),更以其开源特性和强大性能,引领了开源大模型社区的“驼类大爆发”…

可下载旧版app屏蔽更新的app市场

软件介绍 手机用久了,app越来越臃肿,老手机卡顿成常态。这里给大家推荐个改善老手机使用体验的方法,还能帮我们卸载不需要的app。 手机现状 如今的app不断更新,看似在优化,实则内存占用越来越大,对手机性…

Python_day47

作业:对比不同卷积层热图可视化的结果 一、不同卷积层的特征特性 卷积层类型特征类型特征抽象程度对输入的依赖程度低层卷积层(如第 1 - 3 层)边缘、纹理、颜色、简单形状等基础特征低高,直接与输入像素关联中层卷积层&#xff08…

比较数据迁移后MySQL数据库和达梦数据库中的表

设计一个MySQL数据库和达梦数据库的表数据比较的详细程序流程,两张表是相同的结构,都有整型主键id字段,需要每次从数据库分批取得2000条数据,用于比较,比较操作的同时可以再取2000条数据,等上一次比较完成之…

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器(ADC),支持8kHz~96kHz采样率,集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器,适用于高保真音频采集场景。 2. 核心特性 高精度:24位分辨率&#xff0c…

Linux 文本比较与处理工具:comm、uniq、diff、patch、sort 全解析

在类 UNIX 操作系统,特别是 Linux 系统中,命令行提供了一整套强大的文本处理工具,这些工具对于文件差异对比、内容筛选、文本排序以及源代码管理尤为重要。今天,我们将结合真实示例,深入介绍并实战演示 comm、uniq、di…

6月6日day46打卡

通道注意力(SE注意力) 知识点回顾: 不同CNN层的特征图:不同通道的特征图什么是注意力:注意力家族,类似于动物园,都是不同的模块,好不好试了才知道。通道注意力:模型的定义和插入的位置通道注意力…

前端技能包

ES6 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body><script>// 变量定义var a1;let b5; // 现在使用let 定义变量// 对象解构let person{&quo…

大数据(1) 大数据概述

一、大数据时代 1.三次信息化浪潮 二、什么是大数据 1.四个特点 4V&#xff1a;数据量&#xff08;Volume&#xff09;大、数据类型&#xff08;Variety&#xff09;繁多、处理速度&#xff08;Velocity&#xff09;快、价值密度&#xff08;Value&#xff09;低 三、大数据…

element-plus 单选组件 el-radio,选不上,又没报错,直接复制官网也不行解决方案

在使用 Vue 框架开发项目时&#xff0c;Element UI 是常用的组件库。最近在开发中遇到了 Element 单选框组件el-radio的双向绑定问题&#xff0c;直接复制element官网上的的案例下来也是不得&#xff0c;经过调试和探索&#xff0c;终于找到了解决方案&#xff0c;特此记录分享…

使用 Amazon Q Developer CLI 快速搭建各种场景的 Flink 数据同步管道

在 AI 和大数据时代&#xff0c;企业通常需要构建各种数据同步管道。例如&#xff0c;实时数仓实现从数据库到数据仓库或者数据湖的实时复制&#xff0c;为业务部门和决策团队分析提供数据结果和见解&#xff1b;再比如&#xff0c;NoSQL 游戏玩家数据&#xff0c;需要转换为 S…

开疆智能Ethernet/IP转Modbus网关连接质量流量计配置案例

首先设置modbus从站的485参数&#xff0c;确保网关和从站的485参数保持一致。 设置完成后打开网关配置软件并新建项目 先设置网关在Ethernet一侧的IP地址以及数据转换长度。 设置网关的Modbus参数如波特率9600无校验8数据位&#xff08;无校验选8&#xff0c;有校验选9&#xf…

多智能体MPE环境遇到的若干问题

最近学习MADDPG算法&#xff0c;用MPE环境来测试算法性能。于是便下载了pettingzoo包&#xff0c;运行了simple_tag_v3环境&#xff0c;此环境中有猎人、逃亡者和障碍物。 问题1: MPE中的simple_tag_v3环境&#xff0c;在渲染时看似移动的问题 由于相机视角跟随导致的视觉错觉…

[特殊字符] FFmpeg 学习笔记

一、FFmpeg 简介 FFmpeg 是一个开源跨平台的视频和音频处理工具&#xff0c;支持录制、转换、流处理等功能。 官网&#xff1a;https://ffmpeg.org 安装命令&#xff08;macOS&#xff09;&#xff1a; brew install ffmpeg二、基本命令结构 ffmpeg -i 输入文件 [参数] 输出…

leetcode Top100 238. 除自身以外数组的乘积|数组系列

题目链接&#xff1a;238. 除自身以外数组的乘积 - 力扣&#xff08;LeetCode&#xff09; 238. 除自身以外数组的乘积|数组系列 给你一个整数数组 nums&#xff0c;返回 数组 answer &#xff0c;其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 …

【Liunx专栏_6】Linux线程概念与控制

目录 1、线程是什么&#xff1f;通过一个图来理解……2、Linux进程和线程&#xff1f;2.1、之间的关系和区别2.2、线程的优缺点&#xff1f; 3、线程的创建3.1、POSIX线程库3.2、创建线程3.3、PS查看运行的线程 4、线程的终止5、线程的等待6、线程分离7、线程封装 1、线程是什么…

「Java基本语法」标识符、关键字与常量

知识点解析 1&#xff0e;标识符&#xff08;Identifiers&#xff09;&#xff1a;用于命名类、方法、变量等。 标识符命名规则&#xff1a; 标识符由字母&#xff08;A-Z&#xff0c;a-z&#xff09;、数字&#xff08;0-9&#xff09;、下划线“_”或美元符号“$”组成。标…

Nginx Stream 层连接数限流实战ngx_stream_limit_conn_module

1.为什么需要连接数限流&#xff1f; 数据库/Redis/MQ 连接耗资源&#xff1a;恶意脚本或误配可能瞬间占满连接池&#xff0c;拖垮后端。防御慢速攻击&#xff1a;层叠式限速&#xff08;连接数&#xff0b;带宽&#xff09;可阻挡「Slow Loris」之类的 TCP 低速洪水。公平接入…

LLMs之Structured Output:vLLM 结构化输出指南—从约束生成到自动解析与高效实现

LLMs之Structured Output&#xff1a;vLLM 结构化输出指南—从约束生成到自动解析与高效实现 导读&#xff1a;随着大语言模型&#xff08;LLM&#xff09;在各类任务中的广泛应用&#xff0c;如何使其输出具备可控性、结构化与可解析性&#xff0c;成为实际部署中的关键问题。…