【CVPR2025】FlowRAM:用区域感知与流匹配加速高精度机器人操作策略学习

文章目录

  • FlowRAM:用区域感知与流匹配加速高精度机器人操作策略学习
    • 一、问题出在哪里?
    • 方法部分:从结构到机制,详解 FlowRAM 的内部设计逻辑
      • 1. 动态半径调度器:自适应注意力机制在 3D 感知中的实现
      • 2. 多模态编码器与序列融合模块(Mamba)
      • 3. 条件流匹配策略生成器:一步式动作生成如何实现?
      • 4. 推理流程:从噪声动作到最终执行动作
      • 5. 总结方法特点与优势
    • 三、实验验证:任务泛化 + 高精度执行双优
      • 多任务泛化能力
      • 高精度任务性能
      • 推理速度分析
    • 四、真实机器人实验
    • 五、总结与展望

在这里插入图片描述

FlowRAM:用区域感知与流匹配加速高精度机器人操作策略学习

在机器人操作任务中,“又快又准”一直是关键挑战,尤其是在需要亚毫米级精度的插拔、拧螺丝等场景中。然而,当下流行的策略学习范式(如扩散模型)虽然在生成多模态动作方面表现优秀,却面临计算效率低、任务感知不精确等痛点。

我们在最近的研究中提出了一个全新的框架 FlowRAM(Flow-based Region-Aware Mamba),融合了条件流匹配(Conditional Flow Matching, CFM)和区域感知机制,打破扩散式方法低效、粗感知的壁垒,在 RLBench 多任务和高精度任务上均取得了SOTA 性能。本博客将系统介绍 FlowRAM 的设计思路、关键模块与实验表现。


一、问题出在哪里?

现有方法面临以下两大瓶颈:

  • 低效率的推理过程:扩散模型在推理阶段需进行几十到上百次去噪采样,推理速度慢,难以满足实时机器人控制需求;
  • 感知不聚焦:很多方法使用全局感知机制(如 voxel grid、FPS),导致模型无法准确识别并关注于任务关键区域(如 USB 插口的位置或螺孔的细节),限制了高精度执行能力。

为解决这些问题,我们设计了 FlowRAM,一个结合“精细局部感知”与“流式一跳生成”的通用策略学习框架。


在这里插入图片描述

很好,下面我将进一步扩展博客中“方法部分”的内容,使其从介绍性的“三大模块概览”深化为具备工程/算法视角的逐层细化分析,适用于具备一定技术背景的读者或论文审阅者。该部分将拆解为五个子节,内容将涵盖架构设计逻辑、每个组件的技术实现、参数如何动态调度,以及为什么选择 CFM 和 Mamba 的理论与实践优势。


方法部分:从结构到机制,详解 FlowRAM 的内部设计逻辑

FlowRAM 是一个具备区域感知能力的生成式策略学习框架,融合了现代状态空间建模(Mamba)和条件流匹配(Conditional Flow Matching, CFM)两大技术范式,目标是在空间上对操作区域进行高精度建模,在时间上实现高效动作生成。
在这里插入图片描述

我们将从以下几个方面展开:


1. 动态半径调度器:自适应注意力机制在 3D 感知中的实现

在传统点云策略中,如 Act3D 使用的是全局 Farthest Point Sampling(FPS),每次采样的都是整个场景中的关键点,造成了以下问题:

  • 感知资源被浪费在无关区域;
  • 与操作目标相关的精细几何结构(如插口、盖子边缘)被稀释或错过;
  • 在存在遮挡、局部物体形变等情况下缺乏鲁棒性。

为此,FlowRAM 提出了一种 Dynamic Radius Schedule (DRS) 感知调度机制,其基本思想是:

随着时间步的推进(即从粗到细的推理过程),感知区域的半径从大逐步收缩,使模型逐步聚焦于当前关键动作的目标区域。

公式化表示为:

ri=(1−i/N)⋅(r0−rmin)+rminr_i = (1 - i/N) \cdot (r_0 - r_{min}) + r_{min} ri=(1i/N)(r0rmin)+rmin

  • $i$ 表示当前的时间步;
  • $N$ 为总步数;
  • $r_i$ 为第 $i$ 步的感知半径;
  • $r_0$ 与 $r_{min}$ 分别为起始与最小半径。

该机制本质上模拟了“空间注意力自焦点化”的过程,让模型逐渐从粗糙感知过渡到精确定位。

此外,我们为每个时间步定义了一个 mask 区域 $M_i = {(p_i, r_i)}$,其中 $p_i$ 为当前时间步的扰动位姿位置,作为圆心;最终的点云采样仅在这个动态球形区域中进行。


2. 多模态编码器与序列融合模块(Mamba)

FlowRAM 在感知编码阶段采用的是以下多模态输入:

  • 点云输入:使用 PointMamba(基于 SSM 的 PointNet 变体)提取局部几何特征;
  • RGB 图像输入:多视角图像经由 CLIP + FPN 编码器提取语义;
  • 语言输入:任务指令经由 CLIP-Text 模块得到句向量;
  • 机器人状态输入:包括夹爪状态、扰动初始动作 pose,线性投影后合并进入 token 序列。

所有特征统一嵌入至维度为 $C$ 的向量空间,并拼接成:

Fin=concat(Fgeo,Frgb,Ftext,Fopen)F_{in} = \text{concat}(F_{geo}, F_{rgb}, F_{text}, F_{open}) Fin=concat(Fgeo,Frgb,Ftext,Fopen)

接下来,FlowRAM 使用 多层 Mamba 块 对该多模态 token 序列进行时序建模,其形式如下:

H_1 = LN(F_{in})H_2 = SSM(\text{SiLU}(Conv1D(Linear(H_1))))F_{out} = Linear(H_2 \odot \text{SiLU}(Linear(H_1)))

该模块实现了:

  • 低复杂度(线性而非平方);
  • 状态保持(不同模态 token 保留上下文记忆);
  • 高效融合(融合语义与几何 token 时的注意力压缩);

最终,$F_{out}$ 被送入动作生成模块作为条件特征。


3. 条件流匹配策略生成器:一步式动作生成如何实现?

传统的 Diffusion Policy 在推理阶段必须通过 50-100 步的逐步去噪流程才能得到动作,而 FlowRAM 使用 Conditional Flow Matching (CFM),直接回归目标关键帧动作的矢量场导向路径,一次完成。

基本公式如下:

  • 插值路径为:$x_t = t x_1 + (1 - t) x_0$
  • 流速场为:$u(x_t) = \frac{d x_t}{dt} = x_1 - x_0$
  • 学习目标为最小化速度场残差:

LCFM=Ex0,x1,t[∥x1−x0−vθ(xt,t,C)∥2]\mathcal{L}_{\text{CFM}} = \mathbb{E}_{x_0, x_1, t} \left[\|x_1 - x_0 - v_\theta(x_t, t, C)\|^2\right] LCFM=Ex0,x1,t[x1x0vθ(xt,t,C)2]

其中 $C$ 为条件信息(即 Mamba 编码的多模态特征)。

我们用一个带有 AdaLN 的 SSM 模型作为 $v_\theta$,输入为 $x_t$, $t$, 和条件 $C$,输出为预测的矢量场速度。

此外,为了预测夹爪开闭状态,我们增加了一个 Binary Classifier,监督损失为交叉熵:

Lopen=−xlog⁡x^−(1−x)log⁡(1−x^)\mathcal{L}_{\text{open}} = -x \log \hat{x} - (1 - x) \log (1 - \hat{x}) Lopen=xlogx^(1x)log(1x^)

最终训练目标为:

Ltotal=λ1LCFM+λ2Lopen\mathcal{L}_{\text{total}} = \lambda_{1} \mathcal{L}_{\text{CFM}} + \lambda_{2} \mathcal{L}_{\text{open}} Ltotal=λ1LCFM+λ2Lopen


4. 推理流程:从噪声动作到最终执行动作

推理过程非常高效:

  1. 从高斯分布中采样初始动作 $x_0$;
  2. 通过 DRS 确定当前时间步的感知半径,提取关键区域点云;
  3. 使用 Mamba 提取融合特征 $C$;
  4. 用如下欧拉积分方式前向演化:

xt+Δt=xt+vθ(xt,t,C)⋅Δtx_{t + \Delta t} = x_t + v_\theta(x_t, t, C) \cdot \Delta t xt+Δt=xt+vθ(xt,t,C)Δt

  1. 重复上步 2-4 次,便可得到目标关键帧动作 $x_1$,平均推理时间 < 92ms。

5. 总结方法特点与优势

维度FlowRAM 优势
感知方式动态注意区域,多尺度几何采样
模态融合Mamba 结构替代 Transformer,复杂度线性
动作生成CFM 替代 Diffusion,速度更快,效果更稳定
通用性可适配语言、RGB-D、点云、proprioception 多模态输入
可部署性已在真实机器人 UR5 上部署成功

三、实验验证:任务泛化 + 高精度执行双优

我们在 RLBench 上进行了系统评估,包括:

多任务泛化能力

在 10 个标准任务上,FlowRAM 平均成功率达到 82.3%,比现有 SOTA 方法(如 RVT-2、3D Diffuser Actor)高出近 4%。在复杂任务(如 Stack Blocks)中更是超出对手近 19%
在这里插入图片描述

高精度任务性能

我们在 RLBench 中挑选了 7 个对几何精度极度敏感的任务,如插 USB、拧螺丝等。在这些任务中,FlowRAM 平均成功率高达 52.0%,相比基线模型大幅领先:

  • Insert USB:FlowRAM 成功率 57.3%,RVT-2 仅 21.3%
  • Screw Nail:FlowRAM 54.7%,其他方法均低于 50%
    在这里插入图片描述

推理速度分析

在相同精度下,FlowRAM(CFM)仅需 2~4 步即可生成动作,远优于 DDIM、DDPM 等扩散模型(需要 50~100 步)。如下图所示,速度与精度双优

在这里插入图片描述


四、真实机器人实验

我们将 FlowRAM 部署于真实 UR5 机械臂,配合 Robotiq 夹爪与 Azure Kinect 相机,在 6 个语言条件下的真实任务中表现出色。平均成功率达 81.7%,验证了该方法在少量示范下的实用性和鲁棒性。

任务包括:

  • 插入笔帽
  • 果盘分类
  • 耳机摆放
  • 棋盘布置等

在这里插入图片描述
在这里插入图片描述


五、总结与展望

FlowRAM 提供了一种融合区域感知与高效生成的新范式,专为机器人操作中的高精度任务设计。其关键优势包括:

  • 感知局部细节而非全局冗余
  • 快速生成动作而非多轮迭代
  • 高性能与低推理成本并存

未来,我们希望将 FlowRAM 推向更复杂的现实环境,如多机器人协作、非刚体操作以及开源多模态数据集适配。我们也欢迎社区同行一起探索流匹配范式下的策略生成与视觉感知新边界。


📌 如你感兴趣,欢迎阅读我们完整论文:FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba,或与我们团队联系交流合作。

📦 代码已开源:欢迎访问我们的 GitHub 仓库,如果对你有帮助,别忘了点个 star ⭐ 支持我们!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/93578.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/93578.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图片查重从设计到实现(5)Milvus可视化工具

要通过网页&#xff08;Web&#xff09;访问和管理 Milvus 向量数据库&#xff0c;可以使用官方提供的 Milvus Web UI 工具&#xff0c;这是一款可视化管理界面&#xff0c;支持查看集合、向量数据、执行基本操作等功能。以下是具体的部署和访问方法&#xff1a; 一、部署 Milv…

Linux-awk与sed

文章目录一、AWK1. awk 是什么&#xff1f;2. awk 的基础语法2.1 选项2.2 模式2.3 动作3. awk 的内置变量4. 典型应用场景及示例4.1 打印特定列4.2 条件筛选4.3 使用正则表达式4.4 统计行数4.5 字段操作4.6 使用内置函数4.7 多文件处理4.8 使用自定义变量5. 高级应用&#xff1…

文件加密工具(勒索病毒加密方式)

语言&#xff1a;C# WPF功能&#xff1a;文件加/解密本程序不提供下载&#xff0c;该程序新手操作不当&#xff0c;可能会导致文件加密后无法解密问题&#xff0c;解密需要独立私钥private.key文件支持&#xff0c;没有私钥加密文件是无法被解密的。更新&#xff1a;2025年7月3…

IOC实现原理源码解析

Spring三级缓存流程图singletonObjects&#xff08;一级缓存&#xff09;&#xff1a;缓存经过了完整生命周期的Bean&#xff1b;arlySingletonobjects&#xff08;二级缓存&#xff09;&#xff1a;缓存未经过完整生命周期的Bean&#xff0c;如果某个Bean出现了循环依赖&#…

笔记本电脑磁盘维护指南:WIN11系统磁盘维护完全手册

1. 引言 在当今数字化时代,笔记本电脑已经成为我们工作、学习和娱乐不可或缺的重要工具。随着Windows 11操作系统的普及和应用,用户对于系统性能和稳定性的要求越来越高。然而,许多用户往往忽视了一个至关重要的方面——磁盘维护。磁盘作为计算机系统中负责数据存储和读取的…

李宏毅2025《机器学习》-第九讲:大型语言模型评测的困境与“古德哈特定律”**

摘要&#xff1a; 随着大型语言模型&#xff08;LLM&#xff09;的推理能力日益增强&#xff0c;如何公平、准确地评测其“智力”水平&#xff0c;成了一个极其棘手的问题。本文基于李宏毅教授的最新课程&#xff0c;深入探讨了当前LLM评测面临的困境。文章首先揭示了标准数学和…

Spring Boot集成Chaos Monkey:构建高韧性系统的故障注入实战指南

Spring Boot集成Chaos Monkey&#xff1a;构建高韧性系统的故障注入实战指南一、Chaos Engineering核心原理1.1 混沌工程价值矩阵1.2 Chaos Monkey核心攻击类型二、Spring Boot集成Chaos Monkey2.1 基础集成配置依赖引入配置文件 - application.yml2.2 高级攻击策略配置自定义攻…

AtCoder Beginner Contest 416(ABCDE)

A - Vacation Validation 翻译&#xff1a; 给你一个长度为 N 的字符串 S&#xff0c;它由 o 和 x 以及整数 L 和 R 组成。 请判断 S 中从第 L 个字符到第 R 个字符的所有字符是否都是 o。 思路&#xff1a; &#xff08;模拟&#xff09; 实现&#xff1a; #include<bits…

【AlphaFold3】网络架构篇(2)|Input Embedding 对输入进行特征嵌入

博主简介&#xff1a;努力学习的22级计算机科学与技术本科生一枚&#x1f338;博主主页&#xff1a; Yaoyao2024往期回顾&#xff1a;【AlphaFold3】网络架构篇&#xff08;1&#xff09;|概览预测算法每日一言&#x1f33c;: 去留无意&#xff0c;闲看庭前花开花落&#xff1b…

秋招Day20 - 微服务 - 概念

什么是微服务&#xff1f;将一个大型的单体项目分割成一个个可以独立开发和部署的小服务&#xff0c;服务之间松耦合&#xff0c;可以通过轻量级通信机制&#xff08;比如HTTP&#xff09;相互协作微服务带来了哪些挑战&#xff1f; 介绍一下一下Dubbo&#xff1f;Dubbo是一个高…

PyTorch 生态四件套:从图片、视频到文本、语音的“开箱即用”实践笔记

写在前面 当我们谈论 PyTorch 时&#xff0c;我们首先想到的是 torch.Tensor、nn.Module 和强大的自动求导系统。但 PyTorch 的力量远不止于此。为了让开发者能更高效地处理图像、文本、音频、视频等真实世界的复杂数据&#xff0c;PyTorch 建立了一个强大的官方生态系统。本文…

2023 年 NOI 最后一题题解

问题描述2023 年 NOI 最后一题是一道融合图论与动态规划的综合优化问题&#xff0c;聚焦于带时间窗约束的多路径规划。题目具体要求如下&#xff1a;给定一个有向图&#xff0c;其中节点代表城市&#xff0c;边代表交通路线。每条边具有三个属性&#xff1a;行驶时间、基础费用…

Android补全计划 TextView设置文字不同字体和颜色

1 富文本 1 java中动态加载文本 颜色 String strMsg "今天<font color\"#00ff00\">天气不错</font>"; tv_msg.setText(Html.fromHtml(strMsg));字体和颜色 String str2 "今天<font color\"#00ff00\"><big>天气不…

C语言:详解单链表与例题

C语言&#xff1a;详解单链表与例题 1.单链表的实现 2.例题&#xff1a;移除链表元素 1.单链表的实现 链表根据带头或不带头、单向或双向、循环或不循环分类为8种&#xff0c;最常用的是单链表和双向链表&#xff0c;单链表是 不带头单向不循环 链表。 链表由节点组成&#xff…

从0开始学习R语言--Day62--RE插补

对于会有多次测量值的数据&#xff0c;用普通的回归去插补&#xff0c;往往会忽略掉数据个体本身的特点&#xff0c;毕竟多次的测量值其实就代表了数据个体的不稳定性&#xff0c;存在额外的干扰。而RE的插补原理是结合个体本身的随机效应和群体的固体效应再加上截距进行插补的…

RESTful API开发指南:使用Spring Boot构建企业级接口

目录 1. 引言2. RESTful API基础概念3. Spring Boot环境搭建4. 项目结构设计5. 核心组件开发6. 数据库集成7. 安全认证8. 异常处理9. API文档生成10. 测试策略11. 部署与监控12. 最佳实践 1. 引言 在现代软件开发中&#xff0c;RESTful API已成为构建分布式系统和微服务架构…

从 Print 到 Debug:用 PyCharm 掌控复杂程序的调试之道

目录摘要调试工具窗口会话工具栏调试工具栏单步工具栏调试器选项卡调用栈帧&#xff08;Frames&#xff09;变量&#xff08;Variables&#xff09;&#x1f4a1; 表达式求值区域&#xff08;Evaluate expression field&#xff09;&#x1f5b1;️ 右键菜单&#xff08;Contex…

用于前列腺活检分级的分层视觉 Transformer:迈向弥合泛化差距|文献速递-医学影像算法文献分享

Title题目Hierarchical Vision Transformers for prostate biopsy grading: Towardsbridging the generalization gap用于前列腺活检分级的分层视觉 Transformer&#xff1a;迈向弥合泛化差距01文献速递介绍前列腺癌是全球男性中第二常见的确诊癌症&#xff0c;也是第五大致命癌…

Apple基础(Xcode②-Flutter结构解析)

&#x1f3d7;️ 目录结构速查表&#xff08;your_project/ios/ 下&#xff09;ios/ ├── Runner/ ← 原生 iOS 工程根目录&#xff08;Xcode 打开它&#xff09; │ ├── AppDelegate.swift ← App 入口&#xff08;类似 Android 的 MainActivity&…

X00229-基于深度强化学习的车联网资源分配python完整

X00229-基于深度强化学习的车联网资源分配python完整