51c视觉~3D~合集3

我自己的原文哦~      https://blog.51cto.com/whaosoft/13954440

#SceneTracker

在4D时空中追踪万物!国防科大提出首个长时场景流估计方法 

本篇分享 TPAMI 2025 论文​​SceneTracker: Long-term Scene Flow Estimation Network​​,国防科大提出首个长时场景流估计方法 SceneTracker。

  • 作者:Bo Wang,Jian Li,Yang Yu,Li Liu,Zhenping Sun,Dewen Hu
  • 机构:国防科技大学
  • 原文链接:https://arxiv.org/abs/2403.19924v4
  • 代码链接:https://github.com/wwsource/SceneTracker

论文简介

在时间与空间组成的4D时空中,精确、在线地捕捉和分析长时且细粒度的物体运动,对机器人自动驾驶元宇宙具身智能等领域更高水平的场景理解起到至关重要的作用。

本研究提出的SceneTracker,是第一个公开的(2024.03)有效解决在线3D点跟踪问题或长时场景流估计问题(LSFE)的工作。其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。本工作现已发表在人工智能顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IF=20.8)上。

SceneTracker是一个新颖的基于深度学习的LSFE方法,它采用迭代的方式逼近最优轨迹。同时其动态索引和构建表观相关性特征和深度残差特征,并利用Transformer挖掘和利用轨迹内部和轨迹之间的远程联系。通过详细的实验,SceneTracker在处理3D空间遮挡和抗深度噪声干扰方面显示出卓越的能力,高度符合LSFE任务的需求。同时,本研究构建了第一个真实世界的LSFE评估数据集LSFDriving,进一步证明了SceneTracker在泛化能力上的优势。

所提方法介绍

我们的目标是跟踪一个3D视频中的3D点。我们形式化该问题如下:一个3D视频是一个帧的RGB-D序列。估计长时场景流旨在生成已知初始位置的个查询点的相机坐标系下的3D轨迹。我们方法的整体架构如图1所示。

图1

图1

轨迹初始化

初始化的第一步是将整个视频划分为若干滑动窗口。我们以长度、滑动步长进行划分。如图1左侧所示,我们需要跟踪个查询点,以三个绿色点为例。

对于第一个滑动窗口,轨迹会被初始化为查询点的初始位置。对于其他滑动窗口,其前帧会根据前一个滑动窗口的后帧的估计结果进行初始化,而其后帧会根据前一个滑动窗口的最后一帧估计结果进行初始化。

以任意一个滑动窗口为例,我们得到相机坐标系下的初始轨迹。进一步的,我们结合相机内参将其转换为坐标系下的初始轨迹。

降采样和降尺度

我们网络推理在的粗分辨率上。这里是一个降采样系数。

首先我们使用一个编码器网络来提取图像特征。编码器网络是一个卷积神经网络,包括8个残差块和5个下采样层。无需特征提取,我们直接对帧的原始深度图进行间隔为的等间隔采样,从而得到降采样的深度图。

进一步的,我们在维度上对初始轨迹进行倍的降尺度操作,得到初始降尺度轨迹。

模板特征和轨迹的更新

在流迭代模块(FIM)中,我们迭代式地更新查询点的模板特征和降尺度轨迹。当处理第一个滑动窗口的第一帧时,我们使用查询点的坐标在特征图上进行双线性采样,从而获得第一帧的模板特征。

然后我们将该特征在时间维度上复制次,获得所有后续滑动窗口的初始模板特征。所有滑动窗口都有一个统一的和独立的。经过FIM的次迭代后,它们会被更新为和。

轨迹输出

我们首先将更新后的降尺度轨迹放大得到当前滑动窗口的3D轨迹片段,以匹配原始输入分辨率。然后我们结合相机内参,将其转换为相机坐标系下的3D轨迹片段。

最后我们将所有滑动窗口生成的轨迹片段链接起来形成完整的3D轨迹。其中相邻窗口中重叠部分采用后一个窗口的结果。

所提数据集介绍

给定一个自动驾驶数据的序列,我们的目标是构建一个帧的RGB-D视频以及第一帧中感兴趣点的3D轨迹。具体地说,我们会分别从静态背景、移动的刚性车辆以及移动的非刚性行人上采样感兴趣点。

背景上的标注

首先,我们利用相机内参和外参来提取第一帧的LiDAR点,这些点可以被正确地投影到图像上。然后我们使用2D目标检测中的包围框来过滤掉所有前景LiDAR点。以一个LiDAR点为例,我们根据车辆位姿将其投影到剩余的帧上。正式地,在时刻的投影点为:

这里,是时刻从车体到世界坐标系的转换矩阵。

车辆上的标注

与背景不同,车辆具有自己独立的运动。我们引入3D目标跟踪中的3D包围框来提供时刻从世界到包围框坐标系的转换矩阵。我们使用3D包围框来过滤出所有车辆的LiDAR点。以一个LiDAR点为例,在时刻的投影点为:

行人上的标注

行人运动的复杂性和非刚性决定了其标注的困难性,这从现有场景流数据集不包含该类数据中可以进一步验证。我们使用双目视频来间接地解决该挑战。

首先,我们准备一段帧的矫正双目视频。然后我们采用一个半自动的标注框架来高效且准确地标记左右目视频中感兴趣点的2D轨迹。

框架的第一步是标记感兴趣点,我们开发了一个定制化的标注软件并标记第一帧左目图像中感兴趣点的2D坐标。

第二步是计算粗左目轨迹,我们利用CoTracker来计算左目视频的粗轨迹。

第三步是计算粗右目轨迹,我们利用LEAStereo来逐帧计算感兴趣点的视差,从而推导出粗轨迹。

第四步是人工细化阶段,左右粗轨迹会在标注软件中显示,其中所有低质量的标注都会被人类标注师修正。

最后,我们结合细化后的左轨迹和视差序列来构造3D轨迹。图2展示了行人的LSFE标注过程。

图2

图2​

实验结果​

所提数据集LSFDriving示例

图3为所提LSFDriving数据集在三种类别(背景、车辆、行人)上的示例。

图3

图3​

所提方法SceneTracker估计效果

图4为所提方法SceneTracker在LSFOdyssey测试集上的估计效果示例。我们等间隔地展示了40帧视频中的12帧点云。方法估计出的轨迹用蓝色显示在对应点云上。从图4可以看出,面对相机和场景中动态物体同时进行的复杂运动,我们方法始终能够输出平滑、连续且精确的估计结果。

图4

图4​

与SF、TAP方法的定性比较

图5是我们方法与scene flow基线、tracking any point基线方法在LSFOdyssey测试集上的定性结果。我们可视化了最后一帧的预测和真值轨迹。轨迹使用jet着色。实线框标记了SF基线由于遮挡或超出边界导致的显著错误区域。从图5可以看出,相比其他方法,我们方法能够估计出厘米级别精度的3D轨迹。

图5

图5​

与SF、TAP方法的定量比较

表1为在LSFOdyssey测试集上3D指标的定量结果。所有数据均来自于Odyssey训练流程。从表1可以看出,我们方法在所有数据集指标上均显著超越其他方法。

表1

表1​

在真实场景数据集LSFDriving上的表现

表2为不同推理模式下我们方法在LSFDriving上的评估结果以及与近期相关方法的比较。从表2可以看出,在仅依赖合成数据进行训练的条件下,我们方法具有真实场景中高泛化能力的优势。

表2

表2

#xxx

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/82774.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cf2059B

原题链接:https://codeforces.com/contest/2059/problem/B 题目背景: 将一个长度为 n 的数组 a 划分为 k 个数组,再将所有偶数索引的数组合并成 b 数组,定义代价为 的最小索引 i ,可得到的最小代价为多少。 思路&am…

爬虫到智能数据分析:Bright Data × Kimi 智能洞察亚马逊电商产品销售潜力

前言 电商数据分析在现代商业中具有重要的战略价值,通过对消费者行为、销售趋势、商品价格、库存等数据的深入分析,企业能够获得对市场动态的精准洞察,优化运营决策,预测市场趋势、优化广告投放、提升供应链效率,并通…

从解决一个分享图片生成的历史bug出发,详解LayoutInflater和View.post的工作原理

问题背景 最近在项目中遇到一个问题:在档口分享功能中,需要动态生成一个分享图片。代码是这样写的: // 项目中的代码 val shareView LayoutInflater.from(thisStallMainActivityV1).inflate(R.layout.share_header_stall_main_layout, nul…

2.linux目录切换命令:cd与pwd以及路径与路径符

cd 切换当前工作目录 cd [linux路径0] cd没有选项,直接执行,只有参数.如果没有参数,表示回到用户的home目录 pwd 无参,无选项,直接打印当前工作目录的绝对路径 路径 相对路径 以当前目录为起点,路径描述无需使用/开头 # cd Desktop 绝对路径 路径描述需要以/开头 cd…

摩尔条纹 原理以及matlab 实现

一、简介 莫尔条纹的形成原理-CSDN博客 “莫尔”一词源于法文“Moire”,其原本的含义是“波动”或者“起波纹的”。早在古代时期,人们便偶然发现,当把两块薄的丝绸织物相互叠加放置时,能够看到一种呈现不规则形态的花纹。此后&a…

【海康USB相机被HALCON助手连接过后,MVS显示无法连接故障。】

在Halcon里使用助手调用海康USB相机时,如果这个界面点击了【是】 那么恭喜你,相机只能被HALCON调用使用,使用MVS或者海康开发库,将查找不到相机 解决方式: 右键桌面【此电脑】图标 ->选择【管理】 ->选择【设备…

数据治理是什么意思?数据治理平台有哪些?

目录 一、数据治理的概念 1. 数据治理的定义 2. 数据治理的目标 二、数据治理的实施流程 1. 规划阶段 2. 评估阶段 3. 执行阶段 4. 监控与评估阶段 三、常见的数据治理平台 1. FineDataLink 2. IBM InfoSphere Information Governance Catalog 四、总结 随着企业业…

高效工具-tldr

喜欢使用命令操作的小伙伴,肯定会遇到一个问题,查看命令如何使用时,会列出一堆,特别是英文,看的直发懵。前段时间我也是研究git命令,也遇到了类似的问题。好在有大数据,帮我普及相关的知识。 在…

安卓添加设备节点权限和selinux访问权限

# 1 修改设备节点权限及配置属性设置节点值 ## 1.1 修改设备节点权限 ### 1.1.1 不会手动卸载的节点 在system/core/rootdir/init.rc中添加节点权限 在on boot下面添加 chown system system /sys/kernel/usb/host chmod 0664 /sys/kernel/usb/host ### 1.1.2 支持热插拔的…

ssm学习笔记(尚硅谷) day1

创建新项目 maven的聚合 1. 标记父类项目 标签<packaging>pom</packaging>表示将该项目标记为父类项目&#xff0c;必须添加。 以下是标签<packing>的常见取值 groupId在pom.xml中&#xff0c;可以从pom.xml直接修改。 2. 通过<modules>添加子项目…

基于Java,SpringBoot,Vue,UniAPP医院预约挂号买药就诊病例微信小程序系统设计

摘要 随着医疗信息化的不断推进以及“互联网医疗”模式的广泛普及&#xff0c;传统医院挂号流程中存在的排队时间长、资源分配不均等问题日益凸显&#xff0c;急需通过数字化手段加以解决。本研究设计并实现了一套基于Java、SpringBoot、Vue与UniAPP技术栈的医院预约挂号微信小…

Axure项目实战:运输统计页引入echarts实现高保真设计(JS代码ctrl+c ctrl+v懂得来)

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 案例视频: 数据统计引入echarts示例演示 课程主题:运输统计页引入echarts实现高保真设计 主要内容…

python打卡day39

图像数据与显存 知识点回顾 图像数据的格式&#xff1a;灰度和彩色数据模型的定义显存占用的4种地方 模型参数梯度参数优化器参数数据批量所占显存神经元输出中间状态 batchisize和训练的关系 作业&#xff1a;今日代码较少&#xff0c;理解内容即可 在 PyTorch 中&#xff0c;…

15.1 【基础项目】使用 HTML、CSS 和 TypeScript 构建的简单计数器应用

一个简单的计数器应用是学习如何集成 HTML、CSS 和 TypeScript 的绝佳项目。该应用允许用户对计数值进行增加、减少和重置&#xff0c;展示了 TypeScript 中基本的 DOM 操作和事件处理。 我们将构建的内容 我们将创建一个具有以下功能的计数器应用&#xff1a; 增加计数值减…

RT-Thread源码阅读(3)——内核对象管理

_object_container对象容器数组 在RT-Thread操作系统中&#xff0c;_object_container数组的作用是按类型分类管理内核对象&#xff0c;提供高效的类型检查、资源管理和统计功能 struct rt_list_node {struct rt_list_node *next; /**< point to…

《智能医学》征稿通知:7天可见刊,专科及以上可发表

香港科学出版社(Hong Kong Scientific Publishers Journals)是一家全球独立高质量的学术出版机构&#xff0c;遵循国际开放获取的出版(OA)原则。现已与科检易学术携手共同征集高质量文章。目前可出版来自高等学校、科研院所和企业的先进科技成果。包括理、工、农、医、经、管、…

如何利用categraf的exec插件实现对Linux主机系统用户及密码有效期进行监控及告警?

需求描述 Categraf作为夜莺监控平台的数据采集工具&#xff0c;为了保障Linux主机的安全&#xff0c;需要实现对系统用户密码有效期的监控&#xff0c;并在密码即将到期时及时告警&#xff0c;以提醒运维人员更改密码。本章将详细介绍如何利用Categraf的exec插件来实现这一功能…

RV1126-OPENCV 交叉编译

一.下载opencv-3.4.16.zip到自己想装的目录下 二.解压并且打开 opencv 目录 先用 unzip opencv-3.4.16.zip 来解压 opencv 的压缩包&#xff0c;并且进入 opencv 目录(cd opencv-3.4.16) 三. 修改 opencv 的 cmake 脚本的内容 先 cd platforms/linux 然后修改 arm-gnueabi.to…

如何加载私钥为 SecKeyRef

本文介绍如何在 iOS/macOS 下将私钥加载为 SecKeyRef&#xff0c;涵盖 PEM 格式的 ECC 密钥读取、X9.63 数据构建、以及与 Keychain 的集成。 1. 使用 SecKeyCreateWithData 加载私钥 Apple 提供的 SecKeyCreateWithData 方法可以直接将密钥数据加载为 SecKeyRef 对象。 SecK…