室外 3DVG 基准

室外 3DVG基准(按重要性与被引用频率)

  1. Talk2Car / Talk2Car-3D (2019 / 衍生) — 对象 referral(驾驶场景)

    • 说明:最早的自然语言 → 驾驶场景对象引用数据集之一(原 Talk2Car 是以 nuScenes 为底并提供自然语言命令,评测以 bounding-box 定位为主;后续研究把它转换/扩展为 3D 版本(常见称呼 Talk2Car-3D)以用于 3D grounding 实验)。
    • 模态:相机图像 + LiDAR(源自 nuScenes);语言为自由命令 / referring expressions。
    • 可用性:原始 Talk2Car 数据/工具公开(论文与 repo)。
    • 参考:Talk2Car paper & repo. (ACL Anthology, GitHub)
  2. CityRefer (NeurIPS 2023) — 城市尺度点云的 3D visual grounding

    • 说明:面向 city-scale outdoor point clouds(SensatUrban 数据),提供面向 3D 对象定位 的自然语言描述(约 35k 描述),专门为城市/点云室外 grounding 设计。
    • 模态:稠密城市点云(SensatUrban)+地理信息(OpenStreetMap 对齐的地标标签)。
    • 可用性:数据集与基线/代码均公开(NeurIPS 数据集/补充材料、GitHub)。
    • 参考:CityRefer(paper + supplementary / project)。(arXiv, NeurIPS Proceedings)
  3. WildRefer (ECCV 2024) — STRefer / LifeRefer(大规模动态/行人场景)

    • 说明:提出 3DVG in the wild,包含 STRefer 与 LifeRefer 两个子集,侧重动态/人类中心的室外场景(LiDAR + camera + language),用于 3D 对象定位。
    • 模态/特点:多传感器 LiDAR+相机,多帧动态序列,语言为人工标注的 referring expressions;代码/数据仓库可查。
    • 可用性:论文与官方实现公开(ECCV 论文 & GitHub)。
    • 参考:WildRefer paper & repo. (ECVA, GitHub)
  4. City-scale localization / Text→position(Text2Pos / KITTI360Pose,CVPR2022) — 文本到点云定位(大尺度/格网定位)

    • 说明:任务是把自然语言描述映射到城市尺度的位置/格子(coarse→fine localization),而非单个精确 3D box 的实例定位,但它是室外语言↔点云的大尺度基准,常被归入 outdoor 3DVG 的范围(强调位姿/位置而非 box)。
    • 数据源:KITTI360 / KITTI360Pose 构建。
    • 可用性:论文与实现资源可查(CVPR2022)。
    • 参考:Text2Pos / KITTI360Pose. (CVF开放获取, text2pos.github.io)
  5. NuGrounding (2025 preprint) — 多视角/多摄像头的 3DVG(基于 nuScenes)

    • 说明:最近工作(预印本)宣称构建了“首个大规模 multi-view 3D visual grounding benchmark for autonomous driving”(NuGrounding),使用 nuScenes 数据并自动/半自动构造 grounding prompt(包含实例定位、multi-view 融合考察)。
    • 模态:nuScenes(LiDAR + 多摄像头),instance-level grounding 目标。
    • 可用性:预印本已发布(arXiv);数据/代码通常在作者 repo/补充中公布(需按作者 release 状态检查)。
    • 参考:NuGrounding (arXiv preprint). (arXiv)
  6. Talk2LiDAR / Talk2PC / BEVGrounding(2024–2025) — Lidar-centered 3DVG 基准

    • 说明:近年若干工作提出 专门面向 LiDAR(点云)或 BEV 的 3DVG 基准(例如文献/会议里出现的 Talk2LiDAR / Talk2PC / BEVGrounding 等),目的在于直接在 LiDAR(或 BEV)上进行自然语言驱动的实例定位(not just 2D→3D)。这些基准通常在论文/补充中给出数据构建细节与基线实验。
    • 可用性/引用:相关论文与 openreview / conference 出版物可检索(示例:“Talk2LiDAR / BEVGrounding”)。(OpenReview)
  7. Talk2Radar (2024) — Radar 点云 + 自然语言 的 3D referring 数据集

    • 说明:把 4D mmWave radar / radar point cloud 与自然语言 referring 表达结合起来,提出了 Talk2Radar 基准(示例规模:数千条 referring prompts),用于在雷达点云上做 3D referring / REC。
    • 可用性:论文/预印本公布,数据说明在论文与项目页中给出。
    • 参考:Talk2Radar arXiv / paper。(arXiv, ResearchGate)
  8. GroundingOcc / 3D occupancy grounding(2025 preprints / repos)

    • 说明:将传统“bounding-box grounding”推广到体素级 occupancy grounding(即自然语言 → voxel 层级的占用/形状),一些工作在 nuScenes 上构建了 GroundingOcc / occupancy-grounding 基准(更细粒度、对几何要求更高)。这是室外 3DVG 的一种延伸任务。
    • 可用性:近期预印本与代码仓(如 GroundingOcc GitHub)已发布。(arXiv, Hugging Face)
  • 范围差别:上面列出的数据集包含不同定义的“grounding”——有些是实例级(给定语言返回 3D box / object instance,如 CityRefer、Talk2Car-3D、NuGrounding、WildRefer、Talk2LiDAR),有些是定位/格网/占用级(Text2Pos、GroundingOcc),有些专注于特殊传感器(Talk2Radar)。在做比较实验时要把任务定义(instance localization vs. occupancy vs. coarse localization)事先对齐。(arXiv)
  • 公开性:CityRefer、Talk2Car(原版)与 WildRefer 的代码/数据是可访问的(paper + repo);新近的 NuGrounding、Talk2LiDAR、Talk2Radar、GroundingOcc 等有的在 arXiv / openreview 给出了预印本与实现链接,但具体数据发布/许可/下载状态请以各作者 repo / paper 的说明为准(部分可能需申请访问或尚属作者 release 阶段)。请在使用前检查各自的 license/下载页面。(arXiv, OpenReview, GitHub)
数据集 / 基准 (year)任务类型传感器模态论文 PDF / 预印本官方 repo / 下载 / project page
Talk2Car (2019)instance-level visual grounding (commands → box)multi-view camera + LiDAR (built on nuScenes)Paper / info page. (talk2car.github.io)GitHub / dataset page (Talk2Car). (GitHub, talk2car.github.io)
CityRefer (NeurIPS 2023)instance-level 3D visual grounding (city-scale)city-scale photogrammetric point clouds (SensatUrban)NeurIPS paper PDF / proceedings. (NeurIPS Proceedings, arXiv)Project / supplementary (paper page includes links). (NeurIPS Proceedings)
WildRefer (ECCV 2024)instance-level 3D object localization / grounding in large-scale dynamic scenes (STRefer, LifeRefer)LiDAR + camera (dynamic / human-centric outdoor scenes)ECCV paper PDF. (ECVA, ACM Digital Library)ECCV project / poster & code pointer (paper + repo). (eccv.ecva.net, ACM Digital Library)
Text2Pos / KITTI360Pose (CVPR 2022)localization: text → position (coarse→fine city-scale localization)LiDAR / city-scale point clouds (KITTI360)CVPR 2022 paper (Text2Pos). (CVF开放获取, text2pos.github.io)Project page (Text2Pos site). (text2pos.github.io)
NuGrounding (2025, preprint)multi-view instance-level 3D grounding for autonomous drivingnuScenes: LiDAR + multi-camera (multi-view)arXiv preprint / PDF (NuGrounding). (arXiv)arXiv + authors’ repo (check paper for repo link). (arXiv)
Talk2LiDAR / BEVGrounding (2024–2025, papers / preprints)instance-level 3D grounding on LiDAR / BEVLiDAR (point cloud) / sometimes radar fusion; BEV representationsPaper / arXiv describing Talk2LiDAR & BEVGrounding (preprints). (arXiv)Repo(s) linked from paper / authors (see paper for code links). (arXiv)
Talk2PC / Talk2PC (TPCNet) (2025 preprint)instance-level LiDAR-centered 3D visual groundingLiDAR ± radar / multi-sensor point cloudarXiv preprint (Talk2PC / TPCNet). (arXiv)Paper + likely repo (见 arXiv / paper 补充)。(arXiv)
Talk2Radar (2024)instance-level 3D referring on radar point clouds4D mmWave radar (+可能的相机 / LiDAR配合)arXiv paper (Talk2Radar). (arXiv)arXiv page + repo link in paper (authors’ project page). (arXiv)
GroundingOcc / Talk2Occ (GroundingOcc) (2025 preprint)occupancy-level 3D grounding (voxel/occupancy grounding)nuScenes (multi-sensor) → voxel occupancy + languagearXiv preprint (GroundingOcc / GroundingOcc paper PDF). (arXiv)GitHub: authors report dataset/repo at https://github.com/RONINGOD/GroundingOcc . (arXiv, alphaXiv)
  1. 定义差异:表中包含三类不同目标 —— instance-level(给定语言返回某个物体的 3D box / instance)、localization/position(把语言映射到城市尺度的位置格子或坐标)、和occupancy(把语言映射到体素/占用网格)。在比较模型/结果时务必对齐任务定义。(CVF开放获取, arXiv)
  2. 数据来源 / 依赖:一些基准是直接建立在已有自动驾驶数据集之上(例如 Talk2Car 建立在 nuScenes 之上;NuGrounding / GroundingOcc / Talk2Radar / 多个 occupancy 型基准也以 nuScenes 为底),因此使用它们通常需要先获取相应的原始底层数据(nuScenes、KITTI360、SensatUrban 等)并遵守这些数据集的许可。请在论文/项目页查看"如何下载 / license"说明。(talk2car.github.io, nuscenes.org)
  3. release 状态:CityRefer、Talk2Car、WildRefer、Text2Pos(KITTI360Pose)是明确已发布且可访问的数据集/基准。NuGrounding、Talk2LiDAR、Talk2PC、Talk2Radar、GroundingOcc 等包含最近(2023–2025)发表或预印本工作;大多数作者会在论文或补充中给出 repo/下载链接,但某些资源可能为预印本阶段(请以对应 GitHub / project page 为准)。我在表中把可用的 repo / arXiv / project page 都附上了来源链接。(NeurIPS Proceedings, ECVA, arXiv)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/95710.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/95710.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jenkins安装部署(Win11)和常见配置镜像加速

一、安装前准备 本文使用的Jenkins Windows一键安装包,JDK事先配置好环境变量,Jenkins版本: Jenkins下载地址:jenkins一键安装包v2-479-1.msi资源-CSDN下载 二、Jenkins安装部署 1、下载Jenkins ,点击下一步下一步…

Windows MCP.Net:革命性的 .NET Windows 桌面自动化 MCP 服务器

📋 目录 项目概述 核心技术架构 功能特性详解 技术实现亮点 安装与配置 实战应用场景 代码示例与API详解 性能优化与最佳实践 未来发展规划 总结 项目概述 在人工智能快速发展的今天,AI 助手与操作系统的深度集成成为了一个重要趋势。Window…

Java ArrayList的介绍及用法

十分想念顺店杂可。。。ArrayList 是 Java 集合框架中最常用的类之一,实现了 List 接口,底层基于动态数组实现,支持动态扩容,相比普通数组更灵活。以下是其详细介绍及用法:一、核心特性动态大小:无需预先指…

Docker 命令大全及使用场景总结

一、容器生命周期管理1. 创建并运行容器docker run [选项] 镜像名 [命令]常用选项:-d:后台运行(detached)-it:交互式终端(如 -it ubuntu bash)--name:指定容器名称-p 主机端口:容器端…

简单的 HTTPS 学习

简单的 HTTPS 学习 1. 需求 现在使用的服务是HTTP调用形式,服务可能会有调用外围https形式的服务,简单了解了一下,然后写了一个简单的例子进行记录。 HTTP(超文本传输协议) 是一种用于传输超文本的应用层协议&#…

[系统架构设计师]系统质量属性与架构评估(八)

[系统架构设计师]系统质量属性与架构评估(八) 一.软件系统质量属性 1.基本概念 软件系统质量属性:可测量或可测试的属性 开发期质量属性,运行期质量属性面向架构评估的质量属性:1.可用性: 提升策略 错误检测…

【R语言】R 语言中 gsub 与正则表达式详解(含 POSIX 与 Perl 风格实例)

R 语言中 gsub 与正则表达式详解(含 POSIX 与 Perl 风格实例) 在 R 语言中,字符串处理是非常常见的需求,R 语言中的 gsub() 函数则具有字符串替换的功能。本文将通过两个实例,帮助你深入理解 R 的 gsub()、POSIX 字符…

EN55035多媒体设备电磁兼容性抗干扰要求标准

EN55035 是一项由欧洲标准化委员会制定的电磁兼容性(EMC)标准,全称为《多媒体设备的电磁兼容性要求》。该标准主要针对多媒体设备的电磁辐射和抗干扰能力进行规范,确保这类设备在电磁环境中能够正常工作,同时不对其他设…

计算分组内时间列的最大差值

计算分组内时间列的最大差值 在 Pandas 中,要计算每个分组内 time 列的最大值与当前行值的差值,需结合 groupby() 和 transform() 方法。核心步骤如下:分组计算最大值 使用 transform(max) 获取每个分组中 time 列的最大值,结果会…

CUDA 编程笔记:CUDA延迟隐藏

一、核心概念:延迟隐藏(Latency Hiding)是 GPU 通过多线程机制掩盖指令延迟的关键技术。当某些线程束(warp)因指令延迟(如内存访问或算术计算)而等待时,其他就绪线程束会立即被调度执…

MySQL工具包中的其他程序

虽然有很多不同的程序,但有些选项是公共的,比兔用户名和密码,使用方法和MySQL相同,在这里统一列出,后面我们介绍不同的工具时,只讨论个性的选项以及作用以下是常用的MySQL程序:程序名作用mysqld…

C#WPF实战出真汁09--【消费开单】--选择菜品

1、功能介绍当选择一个空桌时,必须先开台才能开单,可以先开台,再开单,也可以开台的同时开单当选择一个用餐中的餐桌时,必须显示该桌前面已经点好的菜品,同时可以继续点餐或结账所以无论哪个功能都涉及选择菜…

大厂语音合成成本深度对比:微软 / 阿里 / 腾讯 / 火山 API 计费拆解与技术选型指南

在 AI 配音、智能客服、教育音频等场景爆发的当下,语音合成 API 已成为企业技术栈中的核心组件。然而,不同云厂商的计费规则差异显著,短文本 / 长文本计费分离、预付费 / 后付费价格梯度悬殊、音色授权费暗藏成本陷阱等问题,常导致…

Flutter开发 网络请求

HttpClient&#xff08;dart自有&#xff09; 1.get 点击请求按钮获取数据&#xff0c;解析数据获取单词展示到屏幕上。class MyState extends State {String info "暂无数据";List<Widget> texts [];overridevoid initState() {super.initState();}override…

vscode中用python调用matlab的函数(环境安装)

本实践适用于WIN11-x64和ubuntu22.04-x64系统&#xff0c;其余系统和架构未验证。 效果展示 1.环境要求 MATLAB Engine API for Python 的系统要求&#xff1a;参阅此官方文档MATLAB 与 Python 的版本兼容性&#xff1a;参阅此官方文档 2.安装步骤 安装Vscode&#xff08;不…

【数据分享】大清河(大庆河)流域上游土地利用

而今天要说明数据就是大清河&#xff08;大庆河&#xff09;流域上游土地利用。数据介绍大清河&#xff0c;又称大庆河&#xff0c;作为海河流域的重要支流&#xff0c;其流域上游地区不仅是区域水资源调控的关键节点&#xff0c;更是生态保护与经济发展的重要载体。以下从地理…

图论——Djikstra最短路

原理解释 首先解释一下它大概的应用场景以及原理&#xff1a;现在有这么一张图&#xff0c;图上各点之间都有一定的边权或者说是距离。给定你一个起点&#xff08;例如点1&#xff09;&#xff0c;让你求这个点到图上所有点的最短距离是多少&#xff1f; 这个问题比较平常&…

kafka初步介绍

Kafka角色介绍TopicTopic主题的意思&#xff0c;消费者必须指定主题用于的消息发送&#xff0c;生产者也必须指定主题用于消息的接收。topic只是逻辑上的划分。partitionpartition是分区的意思&#xff0c;他的主要作用是将发送到一个topic的数据做一个划分。如果有4个partitio…

windows10的vs2019编译openssl静态库备忘

1、下载安装openssl源码2、官网下载安装activeperl或Strawberry Perl。官网下载慢&#xff0c;网盘找找。使用中activeperl有些异常提示、缺模块&#xff0c;最后使用了Strawberry Perl。3、安装nasm。powershell使用choco install nasm -y 即可。powershell使用cd命令打开当前…

学习笔记与效率提升指南:编程、记忆与面试备考

在学习与工作中&#xff0c;高效的记录习惯、针对性的记忆方法和实用的技能储备&#xff0c;是提升效率的关键。本文结合编程学习、面试备考和英语单词积累&#xff0c;整理一套可落地的学习思路&#xff0c;尤其适合编程初学者。 一、学习核心原则&#xff1a;高效优先&#x…