从LLM到WM:大语言模型如何进化成具身世界模型?

1.引言这学期在方老师开设的《机器人大模型基础和前沿》选修课上接触并学习了具身智能方面的相关知识。作为交互组的组长,我和组员们在幻尔机器狗的功能开发上有切身的实践与探索,在张江具身智能大会上,也见识到了前沿的技术和行业的发展现状和无限的潜力,这些不仅对我个人能力有提升,还让我有未来在具身智能方面进一步投入的热忱。近年来,大语言模型取得了突破性的进展,人们在工作生活中或多或少地和它们打交道,但其缺乏对物理世界的感知和环境交互的经验,使其无法直接应用在具身智能体上作为“大脑”,这也就引出了世界模型(World Model,WM)的概念:为具身智能体提供了一种模拟未来、推演动作后果,能像人类一样“先知先觉”地感知和推断环境能力的模型。接触具身智能之前,我对自然语言处理有浅层的了解,所以在我的结课报告中,我将LLM和WM作为主题,探讨两者之间的关系。2.大语言模型的发展大语言模型是通过学习语料中词序列的生成概率来赋予机器语言能力的主要方法。从2003年论文《A Neural Probabilistic Language Model》中提到的MLP架构(每个文本给予固定参数量的张量,经过输入层、超参数层、输出层的架构进行学习),再到2017年Google发布的《Attention is all you need》,首次提出了具有自注意力机制的Transformer架构,大语言模型正式进入了爆发期。近年来基于Transformer的预训练模型在大规模语料上训练后展现出强大的通用语言能力。其基本原理是通过语言模型把世界知识压缩到Transformer网络中。这意味着LLM训练时通过预测下一个词汇,实际上学习了包含在文本中的大量世界知识(语言学、常识、社会知识等)。与此同时,自注意力机制使得大语言模型拥有上下文处理的能力和具备一定的推理能力,例如通过连锁思维(Chain-of-Thought)提示可以分步解决逻辑和数学问题,展现出“拟人化”的回答能力。总之,LLM在自然语言处理领域已展现强大的潜能,被广泛用于对话系统、写作辅助、信息检索、机器翻译等场景。然而,它们主要依靠语言文本进行训练,并未直接接触现实世界的多模态信息,因此在需要物理常识和环境感知的任务上存在根本局限。在这里插入图片描述
左图为Transformer架构,右图为MLP架构3.世界模型的概念和其在具身智能中的重要性世界模型(World Model)是具身智能系统的核心概念。它类似于人类在头脑中构建的对环境的内在表征,能够进行环境状态的压缩编码和动态演化建模,从而使智能体具备对外界进行推理和预测的能力。具体来说,世界模型就是一个内部仿真器:在当前观测和动作的基础上,预测未来环境状态或感知结果,以支持智能体的规划和决策。经典的例子可以类比于人类玩棋:棋手在行动前会在脑海中“预演”几步走法,同样,具身智能体也需要在执行物理动作之前在内部模拟环境的未来变化。比起仅仅依赖即时感官信息,智能体更需要把内部世界模型作为前瞻性指南,就像国际象棋选手思考若干步棋或者司机直觉地预见前方行人可能突然冲出一样。实质上,世界模型赋予智能体认知能力,使其能够感知、预期并推理周遭环境,并在不确定条件下做出更明智的决策。在具身智能的背景下,世界模型至关重要。一方面,它为机器人或智能体提供了内在的“物理常识”,能够理解并预测环境中的物体运动、相互作用和因果关系。另一方面,它支持多种下游任务的泛化,例如生成模拟、路径规划和长期决策等。例如,在自动驾驶场景中,配备世界模型的自动驾驶系统可以在虚拟空间中预测车辆、行人等的未来轨迹,从而更加安全地规划行驶路线。在仿真任务中,世界模型能够生成符合物理规律的场景序列,以供训练和推理。正如学界所强调的,“世界模型日益被认为是高级认知智能体的基础”——人类使用心理模型来理解环境,AI系统也将世界模型嵌入认知架构来指导感知和行动。简而言之,具身智能强调智能体通过感官与环境交互来获得知识,因此世界模型是其核心。它让AI系统不再是孤立的文本处理器,而是具有“心智地图”的实体,可以像人一样在头脑中模拟世界。在下一步,我们将探讨现有LLM与WM的关系,以及如何让语言模型逐步具备世界模型的特性。在这里插入图片描述
图为智源大会上孙富春教授对世界模型的阐释4. LLM与WM的关系:大语言模型能否演化为具身世界模型?在最近我刷到的一个访谈中,李飞飞教授谈到了大语言模型和具身世界模型。她说到:“大语言模型的核心是‘Saying things’,而具身世界模型的核心是‘Seeing and doing things’。大语言模型的基本单位是词典,可以是单词或者句子。而对于具身世界模型,它的基本单位则是像素或者体素。我们的目标是探索AI算法,让人类可以和像素世界进行沟通。”当前的一个研究问题是,我们是否可以利用LLM的庞大知识库和推理能力,通过适当的训练,使其拥有对物理世界的内部仿真能力?纯粹的LLM缺乏对物体如何运动、相互作用,以及连续操作反馈的直接经验,这使它们难以进行真正的物理推理和因果理解。要弥补这一差距,研究者提出了让LLM“学习具身经验”的思路。例如,有工作提出在虚拟物理世界(如虚拟家居环境中)部署一个具身智能体,让它通过规划和随机探索收集丰富的交互经验,然后用这些经历去微调LLM。这样可以让语言模型从模拟的具身经验中学习到推理和动作技能,同时仍然保持其通用性。此外,多模态数据的融合也是关键路径之一。通过引入视觉、触觉、语言等多模态输入,LLM可以获得更丰富的环境信息。例如,将图像或传感器数据编码成适合语言模型处理的形式能够使得原本只会处理文本的模型了解周围现实世界,从而“弥合”语言与物理世界之间的鸿沟。4.1 典型模型:PaLM-E PaLM-E(Pathways Language Model with Embodied),是Google和柏林工业大学联合开发的,与2023年发布的具身多模态语言大模型。PaLM-E是一个用于体现推理任务、视觉语言任务和纯粹语言任务的单一通用多模态语言模型。PaLM-E能够将视觉-语言领域的知识迁移到具身推理任务中——无论是让机器人在具有复杂动力学和物理约束的环境中执行规划任务,还是回答关于可观测世界的问题。PaLM-E运行在多模态句子上,即token序列,其中来自任意模态(例如图像,神经3D表示或状态)的输入与文本token一起插入作为LLM的输入,然后进行端到端的训练。 最大的PaLM-E-562B(562亿参数)模型可以进行零样本多模态思维链推理,可以在给定图像的情况下讲视觉调节的笑话,并演示一系列与机器人相关的多模态信息功能,包括感知,基于视觉的对话和规划。PaLM-E还可以零样本学习方式推广到多图像提示,尽管只在单图像提示上进行过训练。PaLM-E还可以在给定文本交错手写数字的图像去执行数学运算。此外,该模型可以对时间标注过的、以自我为中心的视觉进行零样本、问答,但都在一个模型中端到端执行。在训练包含机器人任务外,PaLM-E-562B还是一个视觉语言通才,在OK-VQA等数据集上取得了领先性能,同时保留了随着规模增长而来的强大语言能力 PaLM-E展示了将传感器数据无缝注入LLM的可行性,是LLM向WM迈进的重要案例。图为PaLM-E的模型架构4.2 LLM向WM转化的关键挑战 物理推理能力不足:LLM受限于文本训练,很难形成准确的物理直觉。举例来说,理解碰撞运动规律、摩擦力等概念都需要真实感知支持。要解决这一问题,模型需要通过视觉/触觉数据或仿真任务来学习物体运动和交互的因果规律。因果理解和预测:世界模型要求AI能够理解因果关系,而LLM通常仅基于统计相关性进行语言生成。它们可能根据语料习得各种现象的描述,但并不真正“理解”因果机制。高质量的世界模型需要能够预测“如果……那么……”的结果。当前的多模态模型和LM虽然具备一定推断能力,但要达到可以在新环境下进行可靠因果推理的水平,仍需要进一步在多样化场景中学习和验证。模拟与现实的差距(Sim2Real):许多具身模型依赖于模拟器进行训练(如虚拟环境中的探索)。但是,模拟环境与现实世界之间存在差距,包括物理参数、随机性和感知噪声等方面的差异。如何使得在虚拟环境学到的世界模型知识有效迁移到现实机器人或真实场景中,是一个重要课题。长期规划与记忆:复杂任务往往需要跨越长时间的规划和记忆,例如在大楼中寻找物品或完成多步骤的烹饪任务。LLM的上下文长度和记忆机制有限,即使具备连锁思维,也常常因篇幅和细节复杂度受限而无法在真实世界场景中执行长期计划。世界模型需要能够跨越数十步乃至数百步地模拟未来状态,而这对当前架构提出了挑战,需要结合强化学习中的记忆机制或者分层规划策略来解决。5.总结大语言模型向具身世界模型的演化是通向通用人工智能的一条重要路径。它要求我们打通语言→感知(视觉,触觉,听觉)→动作→世界模拟的闭环,实现“纸上谈兵”向“落地生根”的跨越。如同电影《黑客帝国》中虚拟矩阵的预测能力所设想的那样,当AI能像人类那样“在头脑中预见未来”时,智能系统将具备前所未有的创造性和适应性。这不仅是技术的演进,更是认知科学与AI的深度融合,为我们理解智能本质提供了新的视角。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/87429.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/87429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十六届蓝桥杯C++B组国赛题解+复盘总结

文章目录 写在前面1、新型锁2、互质藏卡3、数字轮盘4、斐波那契字符串5、项链排列6、蓝桥星数字7、翻倍8、近似回文字符串9、子串去重10、涂格子 写在前面 打了三年,第十六届是我最后一次参加了,终于如愿以偿国一啦。 这场的大多题目都补了,…

【TTS】2024-2025年主流开源TTS模型的综合对比分析

以下是针对2024-2025年主流开源与商用TTS模型的综合技术选型分析,结合GitHub热度、功能特性、部署成本及中文支持等核心维度进行对比,并附详细实践建议。 一、开源TTS模型对比(2024-2025年主流方案) 模型名称开源/厂商克隆支持中…

redis延时双删,为什么第一次删除

Redis延时双删策略中第一次删除的作用 在缓存与数据库一致性方案中,"延时双删"(Delayed Double-Delete)是一种经典策略,其核心流程如下: 第一次删除:更新数据库前,先删除缓存 更新数…

深度学习1(深度学习和机器学习的区别,神经网络)

深度学习和机器学习的区别 深度学习和机器学习都是人工智能(AI)的重要分支,但它们在方法、应用场景和技术细节上有显著区别。 机器学习通过算法让计算机从数据中学习规律,并做出预测或决策。核心是特征工程(人工提取数…

这才叫窗口查询!TDEngine官方文档没讲透的实战玩法

第1章:你不知道的TDEngine窗口查询——开局就不简单 先别急着翻白眼,提到时间窗口查询,可能你脑子里立马浮现的就是那些常规套路:GROUP BY time_interval、FIRST()、LAST(),再加上点AVG()和MAX(),一锅端。…

Day50 预训练模型+CBAM模块

目录 一、resnet结构解析 二、CBAM放置位置的思考 三、针对预训练模型的训练策略 a.差异化学习率 b.三阶段式解冻与微调 (Progressive Unfreezing) 四、尝试对vgg16cbam进行微调策略 是否可以对于预训练模型增加模块来优化其效果,这里会遇到一个问题&#xff…

快速说一下TDD BDD DDD

基本概念 TDD(测试驱动开发)、BDD(行为驱动开发)和 DDD(领域驱动设计)是软件开发领域中几个重要的概念,它们各自有着独特的侧重点与应用场景,以下为你详细介绍: 测试驱…

浅析基于深度学习算法的英文OCR技术工作原理及其应用场景

在数字化信息飞速发展的当下,大量的文本信息以各种形式存在,从传统的纸质文档到电子图片中的文字内容。如何高效地将这些非结构化的文本转化为计算机能够理解和处理的格式,成为了提高信息处理效率的关键。英文 OCR(Optical Charac…

AI时代SEO关键词策略

内容概要 在人工智能(AI)驱动的新时代,搜索引擎优化(SEO)关键词策略正迎来颠覆性变革。本篇文章将系统解析AI技术如何重塑关键词研究、内容优化及流量提升的全过程,帮助企业实现高效可持续的在线曝光。通过…

免费一键自动化申请、续期、部署、监控所有 SSL/TLS 证书,ALLinSSL开源免费的 SSL 证书自动化管理平台

目录 一、前言二、ALLinSSL 简介亮点核心功能 三、操作步骤部署安装授权DNS服务商授权你的主机服务器自动化部署ssl测试自动申请ssl证书 一、前言 SSL证书是每个网站必备的,但是现在的免费的ssl证书有效期是3个月,以后CA/B Forum 调整 SSL 证书最长有效期…

如何高效清理C盘、释放存储空间,让电脑不再卡顿。

以下是针对Windows系统的C盘深度清理全攻略,包含系统级优化和进阶操作,可释放30%-70%的冗余空间: 一、系统自带工具快速清理(5分钟见效) 磁盘清理工具 按WinR → 输入cleanmgr → 选择C盘重点勾选: ✅ Wind…

AI 如何批量提取 Word 表格中的字段数据到 Excel 中?

在日常工作中,我们经常会接触到大量 Word 表格——学生登记表、客户信息表、报名信息表……这些表格数据往往格式不一,但有一个共同的需求: 从中提取出“字段-值”结构,统一导入 Excel,方便后续分析处理。 传统手工操作…

github代码中遇到的问题-解决方案

下面内容介绍的是我个人在复现github代码遇到的一些问题,如果也可以帮到你,请点个关注吧~ 1.我的项目位置在D盘,但是为什么下面终端的位置在E盘 -》cd /d D:\Users\xxxx(后面的xxxx是你具体的文档位置) 2.怎么知道我…

使用Visual Studio 2022创建CUDA编程项目

要在 Visual Studio 2022 中开发 CUDA 程序,需要进行环境配置并了解基本开发流程。以下是详细步骤: 环境准备 安装 Visual Studio 2022 下载并安装 Visual Studio 2022(社区版或专业版均可)。安装时勾选 “使用 C++ 的桌面开发” 工作负载。确保安装 “C++ CMake 工具” …

Java测试题一

1.基本数据类型有哪些? 基本数据类型有8个:整数:byte、int、long、short。 浮点型:float、double。 布尔型boolean。 字符型:char 2.下列代码的输出是什么?为什么? public static void ma…

使用 Flask 构建基于 Dify 的企业资金投向与客户分类评估系统

使用 Flask 构建基于 Dify 的企业资金投向与客户分类评估系统 前言一、🧩 技术栈二、📦 项目结构概览三、 🔧 核心功能模块说明1 配置参数2 请求封装函数✅ 功能说明: 3 Prompt 构造函数4 Flask 路由定义🏠 首页路由 /…

深入解析 AAC AudioSpecificConfig 在 RTSP/RTMP 播放器中的核心作用

在音视频开发中,“能播”往往只是第一步,**“能正确、稳定、高质量地播”**才是衡量一款播放器成熟度的真正标准。尤其是在面对 AAC 音频流时,很多开发者容易忽视一个极其关键但看似微小的配置段 —— AAC Audio Specific Config(…

Redis在项目中的使用

Redis(Remote Dictionary Server,远程字典服务)是一个开源的键值存储系统,通常用作数据库、缓存或消息传递系统。在项目中,Redis 可以发挥多种作用,以下是一些常见的使用场景: 1. 缓存 减少数据…

使用 collected 向 TDengine 写入数据

collectd 是一个用来收集系统性能的守护进程。collectd 提供各种存储方式来存储不同值的机制。它会在系统运行和存储信息时周期性的统计系统的相关统计信息。利用这些信息有助于查找当前系统性能瓶颈和预测系统未来的负载等。 只需要将 collectd 的配置指向运行 taosAdapter 的…

greeenplum7.2几个问题的解决方案

问题1systemd-modules-load.service报错 systemd-modules-load.service: 这个服务负责加载内核模块。在容器环境下,除非特别需要,否则通常不需要加载额外的内核模块。 auditd.service: 审计守护进程(Audit Daemon),用…