南科大适应、协同与规划的完美融合!P³:迈向多功能的具身智能体

  • 作者:Shengli Zhou1^{1}1, Xiangchen Wang1^{1}1, Jinrui Zhang1^{1}1, Ruozai Tian2^{2}2, Rongtao Xu2,3^{2,3}2,3, Feng Zheng1,2^{1,2}1,2
  • 单位:1^{1}1南方科技大学,2^{2}2时空智能,3^{3}3穆罕默德·本·扎耶德人工智能大学
  • 论文标题:P³: Toward Versatile Embodied Agents
  • 论文链接:https://arxiv.org/pdf/2508.07033v1

主要贡献

  • 提出P³框架,用于构建多功能的具身智能体,能够实现主动感知、灵活工具使用和复杂多任务规划。
  • 引入统一的感知模块,能够主动检测环境中的动态变化,包括由自身行为、人类行为、其他智能体活动以及其他上下文变化引起的改变,从而自主识别各种类型的任务,无需依赖被动反馈。
  • 通过灵活的工具集成,消除了对工具反馈的需求,使得智能体能够与广泛的设备无缝集成,包括那些没有标准化接口的设备,极大地增强了智能体在现实世界中的灵活性和兼容性。
  • 提出一种新的任务规划模块,能够联合处理所有类型的任务(包括主动任务、被动任务和计划任务),根据任务的优先级和依赖关系动态调整任务顺序,有效管理复杂任务调度。
  • 通过在现实世界中的广泛实验验证了该框架的性能,证明了其能够有效处理动态、现实世界的挑战,成功弥合了基准测试和实际部署之间的差距。

研究背景

  • 具身智能体的发展需求
    • 具身智能体是能够通过物理或虚拟身体实时与环境交互的智能系统,其发展旨在弥合感知、推理和行动之间的差距,实现与环境的无缝交互。
    • 然而,构建多功能的具身智能体面临着动态环境感知、开放式工具使用和复杂多任务规划等关键挑战。
  • 现有研究的局限性
    • 以往的研究大多依赖于工具智能体的反馈来感知环境变化和任务状态,这限制了智能体对实时动态的适应性,容易导致误差累积,并限制了工具的灵活性。
    • 此外,多任务调度也未得到充分关注,主要是因为管理任务依赖关系和在动态复杂环境中平衡竞争优先级的复杂性。

方法

P³框架概述

P³框架是一个用于构建多功能具身智能体的系统,旨在实现实时的全任务感知、开放式工具插件和多任务规划。该框架的核心目标是使智能体能够在动态环境中自主感知任务、灵活使用工具,并高效管理多任务的执行。

感知模块

感知模块是P³框架的核心部分,负责主动检测环境中的动态变化,并将这些变化转化为任务提案。其主要功能和流程如下:

  • 输入处理:感知模块以视频流作为输入,实时观察环境。
  • 场景图更新:每当新帧到达时,场景图生成器会更新场景图,捕捉物体之间的空间关系,并将更新后的场景图存储在空间记忆中。
  • 视觉记忆处理:新帧会被发送到视觉记忆模块,通过上下文工程框架进行处理。该框架利用视觉语言模型(VLM)和精心设计的系统提示,生成与机器人当前操作状态上下文对齐的任务提案。
  • 任务提案生成:生成的任务提案与机器人的当前状态结合,确定任务发生的具体位置,并将(任务,情境)对记录在任务记忆的“待处理”部分,供后续调度使用。
  • 视频压缩策略:为解决视频存储和处理的开销问题,采用逐步帧级下采样策略。当帧在视觉记忆中的时间超过限制时,通过VLM进行场景描述,将关键事件以文本形式记录在事件历史中,以保留最大信息量。

工具插件

P³框架支持广泛的工具插件,允许无缝集成各种设备,而无需双向反馈回路。

  • 基础工具智能体:导航智能体(VLN模型)和操作智能体(VLA模型)是执行任务的基础工具,直接控制机器人的运动和操作。
  • 扩展工具集成:除了基础工具外,P³还支持各种现实世界中的工具,如物联网设备和网络智能体。通过上下文工程,如动态场景总结和相关性过滤,智能体可以维护过去观察的简洁、高价值记忆。
  • 自定义工具注册:用户可以通过指定工具的功能和对应的函数调用接口,将自定义工具注册到工具包中,进一步扩展智能体的能力。
  • 安全性与可靠性:在将命令发送给操作智能体之前,会进行验证检查,以确保命令的安全性。同时,采用层次化记忆缓冲区和即时总结,确保只有最相关的信息占用大模型的提示,保持低延迟和稳健性能。

任务规划器

任务规划器是P³框架中负责管理任务执行的模块,能够处理被动任务、主动任务和计划任务。

  • 任务分类
    • 被动任务:由用户指令或问题触发,如“打开窗户”。
    • 主动任务:由感知模块提出,并存储在任务记忆中,如“整理房间”。
    • 计划任务:由用户注册并存储在任务记忆中,根据用户指令由定时器触发,如“下午5点打开空调”。
  • 任务调度:当任何任务被触发时,所有可以立即执行的任务都会被发送到大模型中进行任务优先级和依赖关系评估。调度器通过检索场景中的事件历史,获得相关的关键事件和先前状态,以便更好地进行判断。
  • 任务分配:根据任务的优先级和依赖关系,调度器将高优先级且可以执行的任务通过调度器分配给相应的工具智能体执行。

实验

实验目标

本实验旨在全面评估P³框架在现实世界中的表现,重点关注其三个核心能力:主动感知任务相关信息的能力、无缝插拔和使用各种工具的能力以及基于优先级和依赖关系规划多任务执行的能力。实验通过在真实环境中部署P³框架,验证其在动态、复杂场景下的适应性和有效性。

实验设置

  • 硬件平台:P³框架部署在Realman和AgiBot的人形双臂机器人上,这些机器人具备多种传感器和执行器,能够执行各种任务。
  • 软件配置:集成了Moka管道用于操作任务,Woosh底盘用于导航任务,并测试了与小米智能家居设备的物联网功能。
  • 任务设计:设计了11个现实世界的具身任务,分为独立任务和竞争任务。独立任务评估工具集成和执行能力,竞争任务评估多任务规划和协调能力。

主动感知能力评估

  • 数据集构建:构建了“Active Task Perception Benchmark”,包含272个第一人称视频快照,涵盖家庭场景中的三种任务类别:碎片清理、物品整理和安全检查,以及作为负样本的整洁房间。
  • 评估方法:使用不同的视觉语言模型(VLM)在零样本设置下进行评估,以ChatGPT-3.5-Turbo-1106为评判标准,对模型生成的任务提案进行评分。

  • 结果:QwenVL-max在正样本和负样本之间取得了最佳平衡,整体准确度达到77.09%。其他模型如Cosmos-Reason1-7B和RoboBrain在正样本上表现较好,但在负样本上生成了过多不必要的提案;而Qwen2.5VL-7B、MM-Eureka-Qwen-7B和RoboBrain2.0则倾向于生成较少的提案。

真实环境部署评估

工具集成和执行能力评估
  • 任务设计:设计了6个独立任务,涵盖VLN、VLA、物联网和网络模块等不同类型的任务智能体。

  • 实验结果

    • 任务1:机器人在实验室中捡起废纸,成功展示了框架对主动感知和基本工具集成的能力。
    • 任务2:机器人在执行任务时被中断,转而执行打开办公室灯的任务,成功展示了框架对任务中断和恢复的处理能力。
    • 任务3:机器人在办公室中发现废纸并清理,中途被中断去实验室拍照,同时处理了计划任务(天气播报)和用户指令(关闭加湿器),成功展示了框架对多任务的动态调度能力。
    • 任务4:机器人在实验室中执行任务时被中断,将包裹放在办公室桌子上,最后发现并清理了办公室桌子上的空瓶子,成功展示了框架对复杂任务的处理能力。
    • 任务5:机器人在办公室中被询问天气,中途被中断去实验室拍照,途中发现了倒下的杯子并捡起,同时处理了计划任务(天气播报)和用户指令(关闭加湿器),成功展示了框架对突发情况的适应能力。

多任务规划和协调能力评估
  • 任务设计:设计了5个竞争任务,评估框架在有限资源下执行多个任务的能力。
  • 实验结果
    • 任务7和8:在清洁和简单的环境中,任务成功率较高,因为这些环境减少了无关任务的检测。
    • 任务9、10和11:引入了中等执行的主动任务,要求机器人实时调整计划和任务执行。特别是任务11,机器人需要主动捡起倒下的杯子,这要求机器人适应动作并修改计划,导致性能略有下降。尽管如此,P³框架在整个过程中展示了强大的竞争任务管理能力,其动态调度器和任务记忆允许机器人在中断和新指令下高效地管理任务执行。

结论与未来工作

  • 结论
    • P³框架为具身智能体在多功能、现实世界应用方面取得了显著进展。通过主动识别任务的统一感知模块,消除了对限制性工具反馈的依赖,实现了真正的即插即用能力,能够与任何可控设备无缝集成。
    • 结合动态多任务调度器,能够智能地规划、优先级排序和管理并发任务,处理依赖关系和中断。广泛的现实世界实验验证了P³框架能够成功弥合基准测试和实际部署之间的差距,为具身智能体提供了一个可扩展的数据收集基础。
  • 未来工作
    • 尽管P³框架在实验中表现出色,但仍存在一些挑战。一方面,由于大模型在感知和规划模块中的表现并不完美,导致P³框架无法总是生成最优答案。另一方面,机器人硬件的不稳定性也在实验中导致了多次失败,如网络连接不稳定和过热保护等。
    • 因此,随着各个模块的改进,P³框架有望在更复杂的现实世界场景中进一步增强其适应性和有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921452.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动化流水线

import React, { useState, useEffect } from ‘react’; import { ChevronRight, CheckCircle, Circle, AlertCircle, Clock, Play, Pause, Settings, Code, Server, Shield, Database, Globe, Zap, FileText, Users, GitBranch, Package, Monitor, ChevronDown } from ‘luci…

【高等数学】第十一章 曲线积分与曲面积分——第三节 格林公式及其应用

上一节:【高等数学】第十一章 曲线积分与曲面积分——第二节 对坐标的曲线积分 总目录:【高等数学】 目录 文章目录1. 格林公式2. 平面上曲线积分与路径无关的条件3. 二元函数的全微分求积4. 曲线积分的基本定理1. 格林公式 单连通与复连通区域 设 DDD …

Boost电路:平均状态空间建模

电路特征介绍如图所示是一个非理想情况下的boost电路,其中L1L_{1}L1​和RL1R_{L1}RL1​是分别是电感和串联电阻;C1C_{1}C1​和RC1R_{C1}RC1​是输出电容和串联电阻;Q1Q_{1}Q1​是MOS管,其导通电阻是RonR_{on}Ron​;D1D…

免费网站模板/网站模板建站的优势/如何下载网站模板搭建网站?

在网站建设领域,“网站模板” 是降低技术门槛、提升建站效率的核心工具,尤其适合非专业开发者或追求低成本、快上线的需求场景。下面从定义、核心优势两方面展开详细解析,帮助你全面理解其价值。 一、什么是网站模板? 网站模板&am…

【MATLAB例程】平面上的组合导航例程,使用EKF融合IMU和GNSS数据,8维状态量和2维观测量,附代码下载链接

文章目录程序详解概述系统架构核心数学模型性能评估算法特点运行结果MATLAB源代码程序详解 概述 本代码实现基于扩展卡尔曼滤波器(EKF)的二维组合导航系统,融合IMU(惯性测量单元)和GNSS(全球导航卫星系统…

react生命周期,详细版本

React 组件的生命周期分为三个阶段:挂载(Mounting)、更新(Updating) 和 卸载(Unmounting)。以下是类组件生命周期的详细说明(基于 React 16.3+ 版本): 一、挂载阶段(Mounting) 组件实例被创建并插入 DOM 时的流程: constructor(props) ○ 用途:初始化状态(this…

腾讯最新开源HunyuanVideo-Foley本地部署教程:端到端TV2A框架,REPA策略+MMDiT架构,重新定义视频音效新SOTA!

一、模型介绍HunyuanVideo-Foley 是腾讯混元团队在2025年8月底开源的一款端到端视频音效生成模型。它旨在解决AI生成视频“有画无声”的痛点,通过输入视频和文本描述,就能自动生成电影级别的同步音效,显著提升视频的沉浸感。它是专为视频内容…

计算机原理(二)

计算机原理系列 欢迎大家关注「海拉鲁知识大陆」 多交流不迷路 计算机原理(一) 继续上一篇计算机原理(一)深入了解程序执行部分,进一步说说程序在冯诺依曼模型上如何执行。如果没有了解的童鞋可以查看我上一篇文章。…

【设计模式】 工厂方法模式

系列文章目录 文章目录系列文章目录需要了解工厂制造细节吗?简单工厂模式实现工厂方法模式的实现简单方法? 工厂方法?总结需要了解工厂制造细节吗? 我们在前面的文章中为大家介绍了简单工厂模式,我们知道 简单工厂模式…

详解 Java 中的 CopyOnWriteArrayList

目录 【1】CopyOnWriteArrayList 简介 【2】核心原理 1.底层数据结构 2.写时复制机制 【3】CopyOnWriteArrayList常用方法及实例 1.添加元素方法 add () 2.获取元素方法 get () 3.删除元素方法remove() 【4】优缺点分析 【5】适用场景 【6】总结 【1】CopyOnWriteAr…

新手SEO优化快速起步教程

本教程专为SEO新手设计,帮助您快速上手优化工作。我们将一步步带您了解基础概念,包括高效挖掘关键词的方法、内容优化的核心技巧,以及网站基础设置的关键步骤。后续还会讲解提升排名的实用策略、如何监控效果并进行调整,确保您能系…

Minecraft图片搜索技巧

以下是更多专注 Minecraft 内容的高质量社区平台,涵盖建筑展示、模组/材质分享、实机截图、艺术创作等方向,按类型分类整理:---一、国际知名综合社区平台 特点 链接 CurseForge 模组/材质/数据包第一仓库,作者更新快,支…

数学建模-非线性规划(NLP)

1-理论知识介绍应用2-基于matlab实现非线性规划1)例1% 清除工作台和命令行 clear;clc; x0[0 0 0]; A [-1 1 -1]; b 0; [x,value] fmincon(f1,x0,A,b,[],[],[],[],nonlfun1) function f f1(x)f x(1)^2x(2)^2x(3)^28; end function [c,ceq] nonlfun1(x)c [x(1)…

人工智能学习:什么是seq2seq模型

一、seq2seq模型 Seq2Seq(Sequence-to-Sequence)模型是一种用于处理序列转换问题的深度学习模型,广泛应用于机器翻译、文本摘要、对话系统、语音识别等领域。Seq2Seq模型的核心思想是通过一个编码器(Encoder)将输入序列编码为一个固定长度的上下文向量(Context Vector),…

生态 | 华院计算与深至科技达成战略合作,携手推动AI+医学影像算法升级迭代

8月25日,华院计算技术(上海)股份有限公司(以下简称“华院计算”)与上海深至信息科技有限公司(以下简称“深至科技”)正式签署战略合作协议。双方将秉持“优势互补、资源共享、战略协同、共同发展…

详解MySQL环境变量配置及其在备份中的应用

正确配置MySQL环境变量是保障数据库稳定运行和高效管理的基础。这些变量涵盖了从内存分配、连接设置到日志行为等方方面面,直接决定了数据库的性能表现和功能特性。对于数据库管理员而言,熟练掌握环境变量的配置,是进行性能调优和故障排查的必…

scikit-learn零基础配置(含python、anaconda)

一、Anaconda环境搭建 1、关于Anaconda Anaconda 是一个非常 popular 的 Python 发行版,它不仅包含了 Python 语言本身,还预装了众多常用的科学计算库,如 NumPy、Pandas、Matplotlib 等,能够极大地方便用户的开发和数据分析工作。…

RAG提示词(日本語版)

RAG提示词(日本語版) System Message # 知能型質問応答アシスタント(RAGシステムプロンプト)## 役割定義 あなたは「知能型質問応答アシスタント」として、提供されたコンテキスト情報に基づいてユーザーの質問に回答する専門的な…

qData 数据中台【开源版】发布 1.0.5 版本,全面提升规则治理、非结构化数据处理与部署体验

2025年9月3日 —— 企业级开源数据中台 qData 开源版 正式发布 1.0.5 版本。本次更新聚焦 规则治理一体化、非结构化数据支持、以及开源版的体验与部署优化,进一步提升规则复用能力、数据接入广度与运维效率,帮助企业和开发者更轻松地构建高质量数据治理…

RecSys:用户行为序列建模以及DIN、SIM模型

引言 在推荐系统中,用户历史行为序列是极其重要的信息源。用户最近的点击、点赞、收藏、转发等行为能够有效反映其即时兴趣,无论是在召回、粗排还是精排阶段,合理利用这些行为序列都能显著提升推荐效果。本文将系统介绍用户行为序列建模的几…