【AI论文】Sekai:面向世界探索的视频数据集

摘要:视频生成技术已经取得了显著进展,有望成为交互式世界探索的基础。然而,现有的视频生成数据集并不适合用于世界探索训练,因为它们存在一些局限性:地理位置有限、视频时长短、场景静态,以及缺乏关于探索和世界的注释信息。在本文中,我们介绍了Sekai(日语中意为“世界”),这是一个高质量的、第一人称视角的全球视频数据集,含有丰富的世界探索注释信息。该数据集包含来自全球100多个国家和地区、750多个城市的超过5000小时的行走或无人机视角(FPV和UVA)视频。我们开发了一个高效且有效的工具箱,用于收集、预处理和注释视频,注释信息包括位置、场景、天气、人群密度、字幕以及相机轨迹。实验证明了该数据集的质量。此外,我们使用数据集的一个子集来训练一个交互式视频世界探索模型,命名为YUME(日语中意为“梦想”)。我们相信Sekai将有益于视频生成和世界探索领域,并推动有价值的应用发展。Huggingface链接:Paper page,论文链接:2506.15675

研究背景和目的

研究背景

随着视频生成技术的飞速发展,其在构建交互式世界探索模型中的应用前景日益广阔。然而,现有的视频生成数据集在支持世界探索训练方面存在诸多局限,如地理位置有限、视频时长短、场景静态以及缺乏探索和世界相关的注释信息。这些局限限制了视频生成技术在世界探索领域的应用和发展。

研究目的

本研究旨在解决上述问题,通过引入一个高质量、第一人称视角的全球视频数据集——Sekai(日语中意为“世界”),为视频生成和世界探索领域提供丰富的数据支持。Sekai数据集包含来自全球100多个国家和地区、750多个城市的超过5000小时的行走或无人机视角视频,并配有详细的注释信息,如位置、场景、天气、人群密度、字幕和相机轨迹等。通过这一数据集,本研究期望推动视频生成技术在世界探索领域的应用和发展,为构建交互式世界探索模型提供坚实的基础。

研究方法

数据收集与预处理
  1. 数据收集
  • 从YouTube手动收集高质量的行走和无人机视角视频,并使用相关关键词(如行走、无人机、HDR、4K)进行扩展搜索。
  • 从视频游戏《Lushfoil Photography Sim》中收集视频,该游戏使用Unreal Engine 5构建,展示了逼真的视觉效果,适合收集合成数据。
  1. 数据预处理
  • 对YouTube视频进行修剪,去除开头和结尾部分,并进行镜头边界检测,使用TransNetV2进行检测,并对代码进行GPU加速优化。
  • 对每个镜头进行剪辑提取和转码,标准化视频编码配置,目标为720p、30fps的H.265 MP4格式,比特率为4Mbps。
  • 应用亮度过滤、质量过滤、字幕过滤和相机轨迹过滤,确保视频质量并去除不合适的片段。
数据注释
  1. 位置注释
  • 使用Google YouTube Data API获取视频标题和描述,利用GPT-4o提取格式化位置信息,并使用区间树高效匹配视频剪辑到对应章节。
  1. 类别和字幕注释
  • 采用两阶段策略对视频进行分类和字幕生成。第一阶段对视频进行场景类型、天气、时间和人群密度的分类;第二阶段利用预测的类别标签、位置信息和视频帧生成详细的字幕描述。
  1. 相机轨迹注释
  • 实验了多种相机轨迹注释方法,包括视觉里程计方法DPVO、深度视觉SLAM框架MegaSaM和3D转换器VGGT。通过比较和优化,选择MegaSaM作为基准注释方法,并进行调整以提高注释准确性和效率。
数据采样
  1. 质量采样
  • 根据美学质量和语义质量对视频剪辑进行采样,使用COVER工具获得质量分数,并采样最高分数的视频剪辑。
  1. 多样性采样
  • 通过内容多样性、位置多样性、类别多样性和相机轨迹多样性四个模块进行平衡采样,确保采样视频的多样性和代表性。

研究结果

  1. 数据集规模与多样性
  • Sekai数据集包含来自全球101个国家和地区、750多个城市的超过5000小时的行走或无人机视角视频,视频时长从1分钟到39分钟不等,平均时长为2分钟。
  • 数据集涵盖了多种天气条件、时间、动态场景以及不同的文化、活动、建筑和景观,为视频生成和世界探索提供了丰富的数据支持。
  1. 注释质量
  • 所有视频都进行了详细的注释,包括位置、场景类型、天气、人群密度、字幕和相机轨迹等。YouTube视频的注释质量高,而游戏视频的注释被视为地面真相。
  1. 模型训练与应用
  • 使用Sekai数据集的一个子集训练了一个交互式视频世界探索模型YUME(日语中意为“梦想”),该模型能够接收图像输入,并允许用户通过键盘和鼠标进行无限制的探索。

研究局限

  1. 训练资源有限
  • 由于计算资源的限制,本研究仅使用了Sekai-Real-HQ数据集的一小部分进行模型训练,这可能影响了模型的性能和泛化能力。
  1. 相机轨迹注释不足
  • 对于Sekai-Real数据集,仅对部分数据进行了相机轨迹注释,这限制了相机轨迹在模型训练中的应用。

未来研究方向

  1. 扩展数据集规模
  • 未来可以进一步扩展Sekai数据集的规模,包括收集更多的地理位置、场景类型和天气条件的视频,以提高数据集的多样性和代表性。
  1. 改进注释方法
  • 研究更高效的注释方法,特别是对于相机轨迹的注释,以提高注释的准确性和效率。可以考虑使用自动化或半自动化的注释工具来减少人工工作量。
  1. 优化模型训练
  • 利用更多的计算资源进行模型训练,以提高模型的性能和泛化能力。可以尝试使用更先进的模型架构和训练技术,如迁移学习、强化学习等,来进一步提升模型的交互性和探索能力。
  1. 探索更多应用场景
  • 除了视频生成和世界探索外,Sekai数据集还可以应用于其他领域,如视频理解、导航、视频音频协同生成等。未来可以探索这些领域的应用潜力,并开发相应的算法和模型。
  1. 跨领域合作
  • 加强与计算机视觉、自然语言处理、机器人技术等相关领域的合作,共同推动视频生成和世界探索技术的发展。可以通过联合研究、数据共享和算法优化等方式来实现跨领域的合作与交流。

综上所述,本研究通过引入一个高质量、第一人称视角的全球视频数据集Sekai,为视频生成和世界探索领域提供了丰富的数据支持。尽管存在一些局限,但未来可以通过扩展数据集规模、改进注释方法、优化模型训练和探索更多应用场景等方式来进一步提升研究的深度和广度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/86019.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/86019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

websocket服务端开发

websocket技术在服务端实时消息的推送和im聊天系统中得到了广泛应用。作为一名后端研发人员,这其中又有哪些需要了解和注意的问题点呢?接下来,我一一进行阐明。 SpringBoot项目中引入依赖 引入依赖 <!--websocket支持包--> <dependency> <…

学历信息查询API (IVYZ9A2B) 的对接实战 | 天远API

摘要 本文是天远API学历信息查询API&#xff08;接口代码&#xff1a;IVYZ9A2B&#xff09;的深度技术解析文档。作为一名开发者&#xff0c;我将从实际应用场景出发&#xff0c;详细介绍该接口的调用方法、数据结构和最佳实践。无论您是在开发招聘系统、教育管理平台&#xf…

2025年- H84-Lc192--75.颜色分类(技巧、三路指针排序)--Java版

1.题目描述 2.思路 3.代码实现 class Solution {public void sortColors(int[] nums) {int low 0; // 下一个 0 应该放的位置int mid 0; // 当前检查的位置int high nums.length - 1; // 下一个 2 应该放的位置while (mid < high) {if (nums[mid] …

使用markRaw实例化echarts对象

在Vue 3中&#xff0c;markRaw 函数用于标记一个对象&#xff0c;使其永远不会转换为响应式代理。在 this.chart markRaw(echarts.init(chartDom)); 这行代码中&#xff0c;加与不加 markRaw 的主要区别在于Vue是否会将ECharts实例转换为响应式对象。以下是详细分析&#xff1…

硬件-DAY08(中断)

一、蜂鸣器学习&#xff08;中断&#xff09; 二、BSP工程管理 利用BSP工程管理&#xff0c;使文档显示不杂乱&#xff1b; 将这些文件分为4类&#xff0c;并保存到4个不同的文件夹里。 首先在新的工程文件夹里创建一个之后我们编写的类似led驱动&#xff0c;clk驱动等等外设驱…

【Datawhale组队学习202506】YOLO-Master task04 YOLO典型网络模块

系列文章目录 文章目录 系列文章目录前言4.1 DFL 模块4.1.1 DFL的核心思想 4.2 SPP 模块4.2.1 核心思想 4.3 SPPF 模块4.3.1 核心思想 总结 前言 Datawhale是一个专注于AI与数据科学的开源组织&#xff0c;汇集了众多领域院校和知名企业的优秀学习者&#xff0c;聚合了一群有开…

springboot中表是以int为主键id的,写了一个生成不重复id的方法

【初衷】 由于系统改造&#xff0c;之前的单应用改成了分布式应用&#xff0c;但是系统底层在搭建的时候部分关联id定义为了int类型&#xff0c;导致分布式id生成的long类型无法插入到int中&#xff0c;且由于是多系统部署&#xff0c;为了把损失降到最低&#xff0c;故此决定…

天气查询API集成指南

天气查询API集成指南 引言 在互联网和移动应用快速发展的今天&#xff0c;天气查询API已经成为开发人员构建各种应用程序时不可或缺的工具之一。无论是为用户提供日常出行建议、帮助农民规划农作时间&#xff0c;还是支持物流行业优化配送路线&#xff0c;实时且准确的天气信息…

AI 产品部署和交付的基础设施——全景解析

当然可以&#xff01;以下是对“AI产品部署和交付的基础设施”主题的详细内容扩展&#xff0c;适合介绍给同事&#xff0c;帮助大家系统性理解AI落地的全流程和关键要素。 AI产品部署和交付的基础设施——全景解析 各位同事&#xff0c;随着AI技术的飞速发展&#xff0c;AI产品…

Linux C 目录基本操作

需要引用的头文件 #include <unistd.h> unistd.h 为程序提供了对POSIX操作系统API的访问接口&#xff0c;主要用于提供与系统调用相关的功能。 char *getcwd(char *buf, size_t size); 用于获取当前工作目录&#xff08;Current Working Directory&#xff09;的绝对…

关于二分和分治的详细讲解(从属于GESP五级)

本章内容 二分 分治 当你把疑惑一劈为二&#xff0c;困境就只剩下一半。 一、二分查找 1. 何谓“二分”&#xff1f; “二分”本质是一种 对单调现象反复折半 的搜索思想。 单调现象&#xff1a;随变量增大&#xff0c;目标状态只会保持“假→真”或“真→假”一次性跃迁…

程序猿成长之路之数据挖掘篇——聚类算法介绍

作为无监督学习算法的基础&#xff0c;学好聚类算法很关键&#xff0c;我之前介绍过kmeans聚类算法&#xff0c;现在系统的介绍一下聚类算法 1. 什么是分类 日常生活中我们会经常见到分类的情况&#xff0c;如家里大扫除时给物品归类&#xff0c;超市货架上商品分类等。分类就…

PostgreSQL 性能优化与集群部署:PGCE 认证培训实战指南

&#xff5c;深夜被数据库报警惊醒&#xff1f; &#xff5c;海量数据查询卡死业务&#xff1f; &#xff5c;主库宕机导致服务中断&#xff1f; 如果你正被这些PostgreSQL生产难题困扰&#xff0c;是时候系统掌握数据库内核优化与高可用架构了&#xff01;深度求索联合PG分会…

Java 对象映射 数据库表映射 工具类 两个对象/表实现映射转换

场景&#xff1a;需要将一个对象的各个字段中的数据映射到另一个对象的字段数据中&#xff0c;或将一个数据库表映射到另一张表中。 本文使用泛型编程实现了一个对象映射功能的工具类。 需要源对象&#xff0c;映射关系map&#xff0c;目标类。由于是动态的类&#xff0c;所以…

Linux离线搭建Jenkins

Linux离线搭建Jenkins(centos7) Jenkins简介: Jenkins只是一个平台&#xff0c;真正运作的都是插件。这就是jenkins流行的原因&#xff0c;因为jenkins什么插件都有&#xff0c;Hudson是Jenkins的前身&#xff0c;是基于Java开发的一种持续集成工具&#xff0c;用于监控程序重…

从零学习linux(2)——管理

一.用户管理 1.用户属性 用户名、口令、用户ID&#xff08;UID&#xff09;、用户主目录&#xff08;HOME&#xff09;、用户shell 2. 3. 4.adduser添加用户 语法&#xff1a;adduser 用户名 如# adduser superw 添加用户名为superw的新用户 5.deluser删除用户 语法&am…

《贵州棒垒球》有什么国家级比赛·棒球1号位

中国国家级棒球比赛盘点 | 小白入门指南 3月 | 中国棒球联赛 (China Baseball League) 国内最高水平职业联赛&#xff0c;各省市职业队角逐冠军&#xff01; 英文&#xff1a;Top-tier professional event with teams nationwide. 5月 | 全国青年棒球锦标赛 (National Youth …

该项目名为“EduPal“,AI推荐

## 完整代码实现 ### 后端代码 (app.py) python import os import json import uuid import requests from datetime import datetime from flask import Flask, render_template, request, jsonify from dotenv import load_dotenv # 加载环境变量 load_dotenv() app …

C++法则15:匹配失败并不是一种错误(Substitution Failure Is Not An Error)。

C法则15&#xff1a;匹配失败并不是一种错误(Substitution Failure Is Not An Error)。 应用例子&#xff1a; SFINAE &#xff1a;关于is_class&#xff0c;is_base_of&#xff0c;C编译器的魔法器&#xff0c;如何实现&#xff0c;is_class&#xff0c;is_base_of。_c is cl…

Ollama客户端 + Docker搭建本地知识库(Mac系统)

一、环境准备 1. 安装Ollama客户端 官网下载&#xff1a;https://ollama.com 验证安装&#xff1a; ollama --version2. 安装Docker Desktop 下载地址&#xff1a;https://www.docker.com/products/docker-desktop 安装后确保Docker状态为"Running" 二、基础搭建…