【无标题】世界模型

在这里插入图片描述

为什么大语言模型,没有真正推动经济大幅增长,但世界模型有可能

5月份谷歌IO大会,DeepMind老板(谷歌AI业务负责人,2024Nobel化学奖得主,黛密斯哈萨比斯)提到,谷歌接下来目标是做世界模型。

一、Meta发布了最新世界模型JEPA2

V-JEPA 2 world model and new benchmarks for physical reasoning

  Meta Video Joint Embedding Predictive Architecture(V-JEPA 2)第一个基于视频训练的世界模型,在物理世界的视觉理解和预测方面实现了最先进的性能。模型还可以用于零样本机器人的规划,以便在新环境中与不熟悉的物体交互。V-JEPA 2代表了我们实现先进机器智能(AMI)目标的下一步,旨在构建能够在物理世界中运行的有用AI代理。

  meta的首席AI科学家(2018年图灵奖得主,纽约大学教授)杨丽坤对这个模型做了一个介绍:大家都觉得语言对智能非常重要,但其实语言不是智能的全部 比如先给你看一个立方体的透视图,然后告诉你会把这个立方体旋转90度,你在脑子里是可以预判出这个透视图会变成什么样的,这是智能,但这个语言没有任何关系,在成长的过程中人类可以逐渐形成对物理世界的常识,这种常识可以帮助人类预判下一步,比如说一旦手机从手中滑落,所有人都会知道这个手机会掉到地上,而不可能会飞到天上,这个对我们称为常识 所有的这些常识构成了我们对物理世界的认知,所有的这种对物理世界的认知的总和就是所谓的世界模型。

【杨教授视频】

vjepa2杨教授介绍

   世界模型能干什么 ?AI科学家们希望让机器也能理解这些常识,也就是说要为机器建立世界模型。第一,世界模型需要能看懂这个世界,比如某个跳水视频,建立了世界模型的AI会告诉你这个动作是向前翻1.5中五转体。第二,世界模型需要能做出合理的预判,比如说给AI一些上下文介绍一下背景信息,再看一个开始做饭的视频,AI就能预判每一步的行为。传统机器人冲咖啡,它的动作呢是预先编排好的,或者起码绝大部分动作是编好的,机器人只需要按部就班的执行动作就可以了,不需要有脑子,但这个任务不一样,对于这个任务没有事先的编排,机器人需要理解这个目标,然后根据这个目标规划各种执行方案,然后根据脑子中的世界模型判断哪些方案是可行的,哪个方案是最优的,然后再执行,这种思考方式跟人类是一模一样的,那为什么要让机器人具备这种思考能力呢?因为你不可能把机器人可能要做的所有动作都用编程事先编好,面对全新的情况也能解决好,这才叫机器人。如果只是重复类似的动作,这些动作做的再好也只是机器。事实上人类就具备解决新问题的能力。比如说我们知道怎么把水从瓶子里倒到茶杯里,如果把茶杯换成任何形状的杯子,我们不用学也会知道怎么倒。开完这几个例子你应该对世界模型能用来干嘛?有了更深刻的理解

  • 理解:世界模型应该能够理解对世界的观察,包括识别视频中的物体、动作和运动。
  • 预测:世界模型应该能够预测世界将如何演变,以及如果代理采取行动,世界将如何变化。
  • 规划:基于预测能力,世界模型应该有助于规划实现给定目标的行动序列。

   为什么世界模型值得关注?甚至我觉得在不久的将来,所有科技公司都会开始卷世界模型的,因为自动驾驶和机器人会带来巨大的商业价值,而世界模型是自动驾驶和机器人的必要条件,没有世界模型,自动驾驶和机器人就不可能达到优秀水平。先说自动驾驶,现在的自动驾驶大部分都及格了,也就是基本不会撞车了,但体验上的差别还挺大的,有的自动驾驶,比如特斯拉的SD就更像老司机,有的自动驾驶给人的感觉就比较楞,为什么不同的自动驾驶系统给人的感觉会有这么大的差别?那其实就是基于物理世界的推理能力有差别,为什么这么说呢?我描述一个场景你就明白了,比如在开车的时候,前面有个骑电动车的人离得不算很近,骑车的人呢时不时会往左看,而且在不远的地方有个能左拐的路口,对于有经验的老司机。看到这种情况一般都会开始警惕稍微减减速,因为司机有理由相信这个骑电动车的人很可能想往左拐,这就是一种基于物理世界常识的推理,这种推理能力就会让老司机对各种可能发生的情况有所预判,从而把车开得更加平稳,但如果是新手不会预判,那就只会等到这个电动车突然左拐自己快撞上的时候急刹车,同样的道理,有物理世界推理能力的自动驾驶系统就会开的比较平稳,但缺乏物理世界推理能力的自动驾驶系统就会开的比较愣,再说机器人之前有很多机器人跳舞和跑跳的视频。你看上去很酷炫,但其实这些动作大部分都是用编程预先编好的,机器人只是在重复这些动作,这样的机器人顶多算是个长得像人的机器,因为这些动作不太需要智能,只有当一个机器人在面对大部分新的情况都可以通过推理顺利解决掉的时候,这个机器人才能叫真正的有智能。

vjepa2介绍

1.1 网络框架

  V-JEPA 2使用联合嵌入预测架构(JEPA)构建,有两个主要组件:

  • 编码器,接收原始视频并输出embedding,这些embedding捕获了关于观察世界状态的有用语义信息。
  • 预测器,接收视频embedding和关于预测内容的附加上下文,并输出预测的embedding。

在这里插入图片描述

  使用视频的自监督学习来训练V-JEPA 2,这使我们能够在视频上训练,而不需要额外的人工注释。V-JEPA 2训练包括两个阶段:无动作预训练,然后是额外的动作条件训练。

   在第一阶段——预训练 ——使用了来自多渠道超过100万小时的视频和100万张图像。这些丰富的视觉数据帮助模型深入理解世界的运作方式,包括人与物体的互动模式、物体在物理世界中的运动规律以及物体间的相互作用。研究发现,模型在预训练阶段结束后就已展现出与理解和预测相关的关键能力。例如,通过在冻结编码器特征上训练轻量级的注意力读出机制(attentive read-out),V-JEPA 2在依赖运动理解的Something-Something v2行为识别任务中表现卓越;同样地,通过在冻结编码器和预测器特征上训练注意力读出机制,该模型在以自我为中心视频中预测未来1秒将执行动作(由名词和动词构成)的Epic-Kitchens-100行为预期任务上创造了最新技术标杆。最终,将V-JEPA 2与语言模型对齐后,在Perception Test和TempCompass等视频问答基准测试中实现了最先进的性能表现
  

  在无动作预训练阶段结束后,该模型能够预测世界可能如何演变——但这些预测并未直接考虑智能体将采取的具体行动。在 训练的第二阶段,通过使用机器人数据(包含视觉观测视频和机器人执行的控制动作)来增强模型的规划实用性。我们将这些动作信息提供给预测器,从而将该数据整合到JEPA训练流程中。经过这些额外数据的训练后,预测器学会了在预测时考虑具体动作,进而可用于控制任务。第二阶段所需的机器人数据量并不大——我们的技术报告显示,仅用62小时的机器人数据训练,就能获得可用于规划控制的模型

  我们展示了如何利用V-JEPA 2模型,在新环境中进行零样本机器人规划,并处理训练阶段未曾接触的物体。与其他机器人基础模型不同——这类模型通常要求部分训练数据必须来自模型部署的具体机器人实例和环境——我们直接在开源DROID数据集上训练该模型,随后将其部署于实验室的实体机器人。实验证明,V-JEPA 2预测器能够胜任基础性任务,例如移动至目标位置、抓取物体以及将其放置到新位置。

  针对短期任务(如抓取或放置物体),采用图像形式设定目标。通过V-JEPA 2编码器获取当前状态与目标状态的嵌入表示,机器人从观测到的当前状态出发,利用预测器模拟执行候选动作集合的后续状态,并根据动作使系统接近目标状态的程度进行评分。每个时间步中,机器人通过模型预测控制重新规划并执行评分最高的下一步动作。

  对于长期任务(如抓取物体并准确放置至目标位置),我们设定一系列视觉子目标供机器人依次完成,这种方式类似于人类视觉模仿学习的行为模式。借助这些视觉子目标,V-JEPA 2在全新未见环境中执行抓放新物体任务时,成功率可达65%-80%。

vjepa机械臂

  

1.2 评价指标

  有智能的机器人才能创造足够大的经济价值,而具备这种物理世界的推理能力,机器人的脑子里就必须有一个世界模型 如何评判时间的模型性能呢?大语言模型的能力一般是从数学能力,编程能力,聊天能力等各方面去打分,但这些评判标准显然不适合世界模型,对于世界模型应该用哪些指标来评判呢?著名的AI开源社区HuggingFace采用了三个全新的指标,用于追踪前沿模型在Meta FAIR发布的3个物理推理基准数据集上的进展:除了通过公开提交追踪社区进展外,我们还提供了每个基准的人类评分,以了解领先模型与人类在关键物理和视频推理任务上的表现差距。

  • 1.MVPBench : 一个用于时空和直觉物理视频理解的视频问答(VQA)基准。视频来源于多样化数据集,并通过自动配对设计,使得每对视频仅在最小程度上存在差异,但对同一问题有相反的正确答案。这种设计确保模型需要超越依赖表面视觉或文本偏差才能在基准测试中表现良好。
    在这里插入图片描述

  Minimal Video Pairs(MVPBench) 通过多项选择题来衡量视频语言模型的物理理解能力。与文献中的其他视频问答基准不同,MVPBench旨在减轻视频语言模型中观察到的常见快捷解决方案,例如依赖于肤浅的视觉或文本线索和偏见。MVPBench中的每个示例都有一个最小的变化对:一个视觉上相似的视频,带有相同的问题,但答案相反。为了获得一个例子的信用,模型还必须正确地得到其最小变化对。

  • IntPhys 2 : 一个旨在评估深度学习模型直觉物理理解能力的视频基准。IntPhys 2聚焦四个核心原则:Permanence(持久性)、Immutability(不变性)、Spatio-Temporal Continuity(时空连续性)和Solidity(固体性),并提供了一套基于"违反预期"框架的综合测试,挑战模型在受控且多样化的虚拟环境中区分可能和不可能事件的能力。

在这里插入图片描述
  IntPhys 2专门用于衡量模型区分物理上合理和不合理场景的能力,在早期IntPhys基准的基础上进行构建和扩展。我们设计的IntPhys 2中类似于发展认知科学家在年轻人通过违反期望范式获得直觉物理时的评估方式。我们使用一个生成成对视频的游戏引擎来实现这一点,其中两个视频在某个点上是相同的,然后在其中一个视频中发生物理破坏事件。然后,模型必须确定哪个视频具有物理破坏事件。虽然人类在各种场景和条件下都能在这项任务上达到近乎完美的准确性,但我们发现当前的视频模型处于或接近偶然。

  • CausaNQA : 一个由问答对组成的视频问答(VQA)基准,用于探究模型对物理世界因果关系的理解。问题设计基于真实世界场景,同时聚焦模型通过五种问题类型预测不同行动和事件可能结果的能力——counterfactual(反事实)、hypothetical(假设)、anticipation(预期)、planning(规划)和descriptive(描述性)。

在这里插入图片描述

  因果VQA评估视频语言模型回答与物理因果关系相关问题的能力。该基准旨在关注物理世界视频中的因果理解,包括反事实(如果…会发生什么)、预期(接下来可能发生什么)和规划(为了实现目标下一步应采取什么行动)等问题。研究发现,尽管大型多模态模型在回答视频中‘发生了什么’的问题上越来越有优势,但在回答‘可能发生了什么’和‘接下来可能发生什么’的问题上仍显不足,这表明在预测物理世界如何根据行动和事件空间演变方面,这些模型与人类的表现存在显著差距。

在这里插入图片描述

  

在这里插入图片描述

  

  

  

  

  

  

  

  

#pic_center =80%x80%







d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ D ^ \hat{D} D^ I ~ \tilde{I} I~ ϵ \epsilon ϵ
ϕ \phi ϕ ∏ \prod

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/83910.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/83910.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Doc2X:⾼精度、⾼性价⽐⽂档解析 API,助力Arxiv论文智能解读Agent构建

前言 在AI大模型时代,RAG(Retrieval-Augmented Generation)检索增强生成技术已经成为构建智能知识库和问答系统的核心架构。然而,在实际项目实施过程中,开发者们往往会遇到一个关键痛点:如何高质量地将各种…

uniapp 对接deepseek

废话不多说直接上代码 // 小程序专用流式服务 export const streamChatMiniProgram (messages, options {secret: "" }) > {return new Promise((resolve, reject) > {// 构建请求数据 const requestData {model: deepseek-chat,messages,stream: true,ma…

Softhub软件下载站实战开发(四):代码生成器设计与实现

文章目录 Softhub软件下载站实战开发(四):代码生成器设计与实现1.前言 📜2.技术选型3.架构概览 🏗️3.1 架构概览3.2 工作流程详解 4.核心功能实现 ⏳4.1 配置管理系统4.2 数据库表结构解析4.3 模板渲染引擎4.4 智能类…

鸿蒙组件通用属性深度解析:从基础样式到高级定制的全场景指南

一、引言:通用属性 —— 构建视觉体验的核心语言 在鸿蒙应用开发体系中,组件的视觉呈现与交互体验主要通过通用属性系统实现。这些属性构成了从基础样式定义(尺寸、颜色)到复杂交互控制(动画、布局)的完整…

选择与方法专栏(9) 职场内篇: 是否要跳出舒适圈?如何处理犯错?

合集文章 一个中科大差生的8年程序员工作总结_8年工作经验 程序员-CSDN博客 选择与方法专栏(1)职场外篇:谨慎的选择城市、行业、岗位-CSDN博客 选择与方法专栏(2)职场外篇: 每个时代都有自己的机遇-CSDN…

DCM4CHEE ARCHIVE LIGHT 源代码解析(1)-前言

系列文章目录 DCM4CHEE ARCHIVE LIGHT 源代码解析(1)-前言DCM4CHEE ARCHIVE LIGHT 源代码解析(2)-STOWRS文章目录 系列文章目录概述一、项目结构1、下载解压代码2、IntelliJ IDEA加载源代码二、编译发布1、编译 dcm4chee-arc-ear 项目2、编译 dcm4chee-arc-ui2 项目写在结尾概…

基于DeepSeek-R1-Distill-Llama-8B的健康管理助手微调过程

基于DeepSeek-R1-Distill-Llama-8B的健康管理助手微调过程 本次创新实训项目的主要任务是利用DEEPSEEK提供的开源模型,通过微调技术,实现一个专注于健康管理与医疗咨询的人工智能助手。本文详细记录我们如何对DeepSeek-R1-Distill-Llama-8B模型进行微调…

TI 毫米波雷达走读系列—— 3DFFT及测角

TI 毫米波雷达走读系列—— 3DFFT及测角 测角原理 —— 角度怎么测测角公式 —— 角度怎么算相位差测角基本公式为什么是3DFFT1. 空间频率与角度的对应关系2. FFT的数学本质:离散空间傅里叶变换 测角原理 —— 角度怎么测 本节内容解决角度怎么测的问题&#xff0c…

图解JavaScript原型:原型链及其分析 02 | JavaScript图解

​ ​ 任何函数既可以看成一个实例对象又可以看成一个函数 作为一个实例对象其隐式原型对象指向其构造函数的显式原型对象 作为一个函数其显式原型对象指向一个空对象 任何一个函数其隐式原型对象指向其构造函数的显式原型对象 任何一个函数是 Function 函数创建的实例&…

自定义View实现K歌开始前歌词上方圆点倒计时动画效果

在上一篇KRC歌词解析原理及Android实现K歌动态歌词效果介绍了动态歌词的实现,我们继续完善一下。在K歌场景中,一些歌曲前奏很长,用户不知道什么时候开始唱,这时一般在歌词上方会有一个圆点倒计时的效果来提醒用户开始时间,如下图:开始唱之前,圆点会逐个减少,直至圆点全…

ffmpeg subtitles 字幕不换行的问题解决方案

使用ffmpeg在mac下处理srt中文字幕可以自动换行,linux环境下不换行直接超出视频区域了 这是因为在mac环境下的SimpleText 渲染器自动处理了文本,而linux无法处理。 mac: linux: 方案: ❌:网上找到的方案…

Trino入门:开启分布式SQL查询新世界

目录 一、Trino 是什么 二、核心概念与架构解析 2.1 关键概念详解 2.2 架构剖析 三、快速上手之安装部署 3.1 环境准备 3.2 安装步骤 3.2.1 下载软件包 3.2.2 安装软件包 3.2.3 启动服务 3.2.4 验证服务 3.2.5 安装 Trino 客户端 3.3 目录结构说明 四、实战演练&…

EFK架构的数据安全性

EFK架构(Elasticsearch Filebeat Kibana)的数据安全性需通过‌传输加密、访问控制、存储保护‌三层措施保障,其核心风险与加固方案如下: 一、数据传输安全风险与加固 ‌明文传输风险‌ Filebeat → Elasticsearch 的日…

2025年渗透测试面试题总结-安全服务工程师(驻场)(题目+回答)

安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 安全服务工程师(驻场) 1. 挖过的一些漏洞(举例说明) 2. 渗透测试的思路&#xff08…

C++ 编译流程详解:从源码到可执行文件

C 编译流程是将人类可读的源代码转换为计算机可执行的二进制文件的过程。这个过程可以分为四个核心阶段:预处理、编译、汇编和链接。每个阶段都有明确的任务,共同确保代码正确转换为可执行程序。 一、预处理(Preprocessing) 预处…

CentOS7 安装最新版 Docker

在 CentOS 7 上安装最新版 Docker,可以按照以下步骤操作: 1. 卸载旧版本 Docker(如有) 如果之前安装过旧版 Docker,需要先卸载: yum remove docker docker-client docker-client-latest docker-common do…

网络安全相关知识

一、网络安全基础 1. CIA三元组 (Confidentiality, Integrity, Availability) 机密性 (Confidentiality):确保信息只能由授权人员查看,防止信息泄露。加密技术(如AES、RSA)通常用于保护机密性。 完整性 (Integrity):…

每天一个前端小知识 Day 4 - TypeScript 核心类型系统与实践

TypeScript 核心类型系统与实践 1. 为什么前端面试中越来越重视 TypeScript? 复杂业务场景需要强类型保障稳定性;更好的 IDE 支持和智能提示;降低线上 bug 概率;成熟的工程团队都在使用;对于 React/Vue 项目维护可读性…

uni-app插件,高德地图、地图区域绘制、定位打卡

介绍 高德地图、地图区域绘制、定位打卡 示例 默认 &#xff08;展示地图&#xff0c;是否可以打卡&#xff09; <template><view class"container"><map-positioning-punch:clock-in-area"clockInArea":refresh-timeout"refreshT…

_mm_aeskeygenassist_si128 硬件指令执行的操作

根据Intel的文档&#xff0c;_mm_aeskeygenassist_si128 指令执行以下操作&#xff1a; result[31:0] SubWord(RotWord(temp)) xor Rcon; result[63:32] SubWord(RotWord(temp)); result[95:64] SubWord(RotWord(temp)) xor Rcon; result[127:96] SubWord(RotWord(temp…