π0.5的KI改进版——知识隔离：让VLM在不受动作专家负反馈的同时，继续输出离散动作token，并根据反馈做微调(而非冻结VLM)

前言

过去的一个月(25年6.4-7.4)，我司「七月在线」具身长沙分部为冲刺一些为客户来现场看的演示项目，基本都用lerobot的那套框架

比如上周五(7.4日)晚上，通过上周五下午新采的第五波数据做『耳机线插入耳机孔』的任务，推理十次之后
前两天又测了几轮(每次还是推理十次)
结论是：通过模仿学习ACT 在piper臂上做耳机插孔任务，基本可稳定在80%左右

再往上，模仿学习在这种任务、这种臂上，确实很难再提升了
所以之前规划准备IL + RL弄，同时考虑franka机械臂
但考虑到暂时没有franka机械臂(而南京那边的机器又有项目再弄，不好弄到长沙来)
故长沙这边，本周先在松灵臂上部署下官方π0——即openpi，下周再搞下人形
至于franka机械臂回头再想办法，比如到时看从哪那借一台

总之，在下一波客户密集来访之前，且加之G1暂时缺位，本周先弄下openpi

当然，因为团队以前经验的积累，加上有朋友的帮助，使得我司长沙具身分部在7.7-7.9短短3天内便把openpi在piper机械臂上部署好了并完成数据的采集，且将于7.10-7.11两天完成训练、推理

正因为开整openpi，使得我再次关注到PI公司，自然而然，便再次回忆到了PI公司在如下图所示的π0.5「当然，更多详见此文《π0.5——离散化token自回归训练，推理时则用连续动作表示，且加强推理(同一个模型中先高层拆解出子任务，后低层执行子任务)》」

之后发布的两项工作：

VLAs that Train Fast, Run Fast, and Generalize Better，发布于25年5月
Real-Time Action Chunking with Large Models，发布于25年6月

本文来解读上面的第一个工作：π0.5的KI改进版

说到VLA，近期的VLA模型采用了专门的高效连续控制模块，如动作专家或连续输出头，这通常需要在预训练VLM主干上添加新的未训练参数。虽然这些模块提升了实时性和控制能力，但它们是否能够保留或削弱预训练VLM中的语义知识——即基于网络规模视觉-语言预训练所提炼的语义知识，以及对VLA训练动态有何影响，仍是一个悬而未决的问题

本文在包含连续扩散或流匹配动作专家的VLA模型背景下研究了这一问题，结果表明，直接引入此类专家会显著损害训练速度和知识迁移效果

对此，来自π0公司的研究者提出了一种在VLA训练过程中对VLM主干进行隔离的技术，以缓解上述问题

PS，遗憾的是，该工作目前尚未开源，期待有比Hybridvla更接近 “KI改进版π0.5” 的开源工作早日出现

第一部分

1.1 引言与相关工作

1.1.1 引言

如原论文所说，大多数物理系统（如机器人）需要连续且精确的指令，例如关节角度或目标位姿，这些指令必须以高频率实时生成

基于自回归的离散token解码并不适合这类高频连续控制，原因在于离散化动作的分辨率有限，以及使用大型模型自回归解码的计算成本高昂，而模型规模的持续扩大只会加剧这一挑战

此外，物理系统通常会产生比大型视觉语言模型（VLM）训练时更为复杂的观测结果，例如多视角图像和本体感知状态。这些差异要求对原有的VLM架构进行调整，以适应机器人控制的需求

因此，机器人领域已经开发出特别适用于实时连续控制需求的架构[54,11,45,55,7,32,6,8,25,22]
虽然多种不同的设计都取得了成功，但一个共同点在于：为实现高效灵巧控制而调整的模型，通常会在transformer或VLM主干网络上增添某种用于连续输入和输出的适配器。例如，后者常通过扩散或流匹配与动作块(即未来动作的短序列)结合使用[54]
这样，模型能够表示复杂的连续动作分布，选择极为精确的动作，并捕捉高频灵巧技能
然而，当这些额外模块被添加到预训练的VLM以构建VLA时，通常需要从头初始化，并且VLA的训练过程必须将这些模块“嫁接”到VLM主干上

这引出了一个重要问题：这些通过连续状态和动作适配器增强的VLA，实际上能够从大规模网页预训练中继承和受益多少？

在本研究中，作者观察到，以往针对具有连续输出的VLMs 进行微调的方法，或许并不令人意外地，会导致显著更差的训练动态，因为这些方法依赖于来自连续适配器（例如扩散头）的梯度作为训练信号。这可能会削弱它们对语言指令的解释能力，并降低最终VLA 策略的整体性能

为了解决这一挑战，作者提出了一种解决这些问题的训练方案，称之为知识隔离

知识隔离的核心思想是，在对VLM 主干进行离散化动作的微调的同时，适配一个动作专家以生成连续动作（例如通过流匹配或扩散），但不将其梯度反向传播到VLM主干中

在下图图1 中对此进行了说明
『方法的核心思想是使用离散化动作和通用VLM数据，通过下一个token预测损失训练VLM主干网络，以学习优质表征；同时，动作专家通过流匹配在连续动作上进行训练。梯度不会从动作专家反向传递到主干网络，从而保护主干网络的知识
在推理阶段，使用体积更小的动作专家生成连续动作，有利于实现快速且精确的控制；而利用离散动作和通用VLM数据进行表征学习，使模型训练更快，并通过将VLM数据的知识迁移到机器人动作中，实现更好的泛化能力。实验表明，在训练阶段同时具备两种动作表征至关重要』
实际上，离散动作token 提供了一种替代的学习信号，不受动作专家未初始化权重的影响，从而使VLM 仍能学习到适用于机器人控制的合适表示，但不会受到来自动作专家梯度的干扰
这种方法还有其他优势：
首先，使用下一个token 预测使得模型学习速度更快且更稳定
其次，仍然使用动作专家能够实现快速推理
第三，该的方案使作者能够在通用视觉-语言数据上对模型进行联合训练，将VLA的优势重新带入模型中

说白了

考虑到“动作专家”是新来的，一开始什么都不会（参数是随机的）
在训练过程中，它犯错时产生的“负反馈”（梯度）会反向传播，干扰甚至“污染”原本VLM模型已经学好的知识
故在训练时，研究人员切断了从“动作专家”到VLM主干模型的“负反馈”通道

这样一来，“动作专家”在学习过程中的任何失误都不会影响到VLM主干
VLM的知识被“隔离”保护了起来
但与冻结VLM不同的是，“冻结”是完全不让主干网络继续学习，而“知识隔离”是让主干网络在“受保护”的情况下继续学习和适应——即VLM主干网络参与(微调)训练并更新权重，即VLM主干会根据自己的学习任务（预测动作token）进行微调和优化，但完全不受旁边那个“新手”动作专家在学习过程中犯错所产生的“负面梯度”的影响

从而在保护VLM核心知识的同时，允许其表征向机器人控制任务进行适配和微调，使其变得对机器人更有用：继续为机器人任务提供足够有效的信息

写到这，让我想到了现实生活中的一个例子，特此分享，以方便大家一目了然、更快速度理解这个机制

即咱们是不是可以想象这样一个场景，某文艺公司派出一个资深歌唱家(类似VLM)，和一新手(类似动作头) 去参加一个文艺汇演，他俩都需要竭尽全力让整个汇演的效果更好——类比于机器人需要更好的完成对应任务
但新手毕竟是新手，唱歌的时候不小心跑调了，而且跑的很离谱
这个时候如果不采取措施的话，新手很容易把其师傅(资深歌唱家)带偏，从而搞砸本次文艺汇演
好在公司早有预防，即赶紧调小了新手的话筒，而调大资深歌唱家的话筒
如此
一方面，他俩继续根据现场听众的反馈，而实时调整自己的歌唱节奏
二方面，资深歌唱家继续带着新手，把新手往回拉：以拉回调上，让本次汇演效果更好

而非直接给资深歌唱家戴上眼罩和隔绝新手声音的大耳机——类似冻结VLM那样，因为那样的话，资深歌唱家便无法帮新手找回调，也无法根据现场听众的反馈调整歌唱节奏——说白了资深歌唱家再资深也是得不断训练改进的，不是到天了，为汇演效果做贡献了

1.1.2 相关工作：包含Hybridvla、π0.5等

第一，对于多模态大型语言模型

在本研究中，作者探讨了如何将机器人动作作为一种新模态集成到预训练视觉语言模型（VLM）中。在相关文献中，常见的方法是将新的输入模态嵌入为离散或连续（“软”）token [31,26,9,42]
继早期关于多模态交叉注意力的研究 [2] 之后，近期的工作表明，对于多模态生成建模（例如交错的图像、文本和语音预测），将不同模态分离为模态特定的“专家”网络且彼此交叉注意——可以防止干扰，并提升预测质量[28,40,49]

虽然这些研究主要训练视觉-语言-语音模型，但作者关注的是如何利用类似的架构，将一种新的模态——机器人动作——融合到预训练的视觉语言模型（VLMs）中

第二，对于视觉-语言-动作模型（VLA）

视觉-语言-动作模型近期被提出，作为实现通用机器人控制的一种有前景的方法 [14,59,24,7,50,56,34,27,3,41,37,43,51,6,21]

VLA 的核心思想是对预训练的视觉-语言模型（VLM）进行微调，以实现动作预测。这类 VLA 能够很好地扩展到大规模机器人数据集 [12,15,48,36,23,5,17,39,1]，并且已被证明可以将基于网络大规模 VLM预训练获得的知识迁移，用于提升策略泛化能力 [59,24]
为了使 VLM 能够在动作数据上进行微调，VLA 训练流程通常会将连续动作映射为一系列离散动作 token，这一过程可以通过简单的分箱离散化方法 [59,24]，或更为先进的基于压缩的 token 化方法 [37] 实现

随后，VLA 通过标准的自回归下一个 token 预测进行训练。尽管这一策略在较简单、低频的控制任务上效果显著，但存在两个缺点：

从连续动作到离散动作 token 的映射可能导致信息损失
自回归地解码动作会导致策略推理速度较慢 [37,3]
因此，现代自回归VLA 通常只能以低于 2Hz 的控制频率运行 [37]，这使其在许多高频任务中难以实际应用

第三，对于VLAs中的快速连续动作解码机制

为了解决这些问题，已有多项研究探索了适用于VLAs的替代动作解码机制，这些机制能够保留连续动作输出并实现快速推理
这些方法通常在VLA动作微调期间引入新的权重和损失，常见方式包括扩散预测头[34,51,32,6]或基于流匹配的“动作专家”[7,8]，这些模块能够关注VLM主干网络中的特征
虽然这些方法实现了快速推理，但在微调过程中简单地增加新权重和训练损失也带来了新的问题：这类VLA在训练速度上往往明显慢于其自回归对应方法，并且网络数据传输效率也有所下降[37]

Liu等人[32-Hybridvla]提出了一种混合自回归-扩散训练方法，但在推理阶段仍需采用较慢的自回归动作解码「个人觉得原文中的这个表述是有问题的，详见《HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散》」

包括OpenVLA-OFT[25]和π0.5[22]在内的多项工作采用了两阶段流程，先通过自回归离散化进行模型训练，然后再在目标领域通过连续输出进行微调

第四，对于π0 和π0.5 模型

作者基于π0 [7] 和π0 -FAST [37] VLA 进行构建。π0 引入了一种连续动作专家，能够捕捉动作片段上的复杂连续分布，实现高效推理，并支持对如叠衣服等灵巧任务的连续控制，然而，正如作者在他们实验中展示的

仅使用π0 方法会导致语言遵循能力和训练速度的下降，因为动作专家的梯度会削弱预训练的VLM 主干
π0 -FAST 通过使用基于DCT 的分词器对动作进行离散化，从而实现了复杂动作片段的高效离散化，但代价是需要昂贵的自回归推理，并降低了执行精细和动态任务的能力，这一点我们在实验中也有说明
π0.5 [22] 首先仅用FAST 离散化动作进行训练，然后在后期训练中加入随机初始化的动作专家，通过联合训练对移动操作数据进行微调

本次的工作形式化了π0.5 的方法，并将其扩展为单阶段训练方案，在该方案中，VLM 主干通过离散token 适配于机器人控制的同时，动作专家同步训练以生成连续动作，从而兼得两者优势。作者在实验中对知识保留和协同训练的不同机制进行了严格消融分析

从而提出了第一个能够快速训练、保留VLM 知识并支持高频率连续动作输出的VLA 方案

1.2 前情提要：标准VLA模型训练方案

1.2.1 构建和训练VLA的标准方法

训练VLA π 的核心思想是将视觉-语言模型（VLM）适配为在给定图像观测 $I_{1: V}$ 、机器人本体状态 $q \in \mathbb{R}^{s}$ 以及自然语言指令 $l$ 作为输入的条件下，输出机器人动作 $a \in \mathbb{R}^{d}$ ，即 $a \sim \pi\left(\cdot \mid I_{1: V}, q, \ell\right)$

VLA 的优势在于，当其微调至机器人动作时，能够继承在互联网规模数据上预训练的底层VLM 的知识

1.2.1.1 动作表示

机器人动作 $a \in \mathbb{R}^{d}$ 在大多数情况下是实值向量，通常用于表示机器人关节角度或末端执行器的坐标。一种常见策略是采用所谓的动作分块（action chunking）[54]，即相对于当前机器人状态预测一段动作轨迹 $a_{1: H}$

为了将 VLM 适配为 VLA，对于这些动作块的表示方式有多种选择

朴素离散化
在最简单的情况下，一个片段中每个动作的每个维度都被离散化，然后每个离散化区间都与一个特殊的文本token相关联[59]
这样，一个片段 $a_{1: H}$ 被映射为 $H \cdot d$ 个token。机器人动作预测因此被表述为下一个token预测问题，并且该模型可以像非机器人专用的VLM 一样，通过交叉熵损失进行训练
时序动作抽象
朴素离散化的缺点在于，对于高频率和高维系统，表示动作所需的token数量会迅速增加，这大大提高了计算成本，并导致训练收敛速度变慢

最近的研究，如 PRISE [57]、FAST [37]，通过在时间上压缩信息的变换方法来缓解这一问题。作者采用 FAST 进行动作编码，该方法对动作片段的每个维度应用离散余弦变换，然后进行量化和字节对编码 [18]，以生成动作token
扩散与流匹配
许多近期提出的VLA 模型采用扩散或流匹配方法[29, 35] 来生成连续动作，作者的实验也遵循了π0 的设计，使用了流匹配的” 动作专家”[7]，如图1 所示
对于流匹配的时间索引 $\tau \in[0,1]$ ，模型的输入是动作片段的加噪版本 $a_{1: H}^{\tau, \omega}=\tau a_{1: H}+(1-\tau) \omega, \omega \sim \mathcal{N}(0, \mathbf{I})$ ，模型被训练以预测流 $\omega-a_{1: H}$ 。在推理时，该流场被积分以将 $\omega$ 去噪为最终的动作片段

1.2.1.2 状态表示

作者针对机器人的本体状态考虑了三种不同的表示方式：

即通过离散化后将其表示为文本（“文本状态”，即text state）
同样通过离散化使用特殊token（“特殊token状态”）
以及通过学习的投影将连续状态直接映射到主干网络中（“连续状态”）

更多细节和讨论请参见C节

1.2.1.3 VLA 架构、训练与专家混合

大多数 VLA 由多模态 Transformer 构建，通常使用预训练的 VLM权重进行初始化。以下便是一种基于 Transformer 的 VLA 架构的一般形式

$\begin{array}{l} \begin{aligned} & \pi_{\theta}\left(y \mid I_{1: v}, q, \ell\right) \\ = & p_{\theta}\left(y_{1: n} \mid x_{1: n}\right) \end{aligned}\\ =p\left(y_{1: n} \mid f\left(\left(\phi_{p(i)}\left(x_{i}\right)\right)_{i=1}^{n}, A\left((\rho(i))_{i=1}^{n}\right),(\rho(i))_{i=1}^{n}\right)\right) \end{array}$

将一个长度为 $n$ 的多模态输入序列 $x_{i}$ 映射为一个长度为 $n$ 的多模态输出序列 $y$ 上的概率
对于VLA，通常 $y=y^{a}$ 对应于动作目标
以往的工作已经考虑了对动作预测和VLM任务（此时 $y=y^{\ell}$ 为分词化文本输出）进行联合训练的单一模型[14,59]
如其模态类型 $\rho: i \mapsto \text { \{image, word, action, state, ...\} }$ 所示，每个token 可以是
文本 $\operatorname{token}\left(x_{i}^{\ell} \in \mathbb{N}\right)$
图像 $\operatorname{patch}\left(x_{i}^{I} \in \mathbb{R}^{p \times p \times 3}\right)$
或连续输入 $\left(x_{i} \in \mathbb{R}^{d}\right)$ ，如机器人状态或动作
这些token 通过不同的编码器 $\phi_{j}: \mathcal{T}_{j} \rightarrow \mathbb{R}^{d}$ 进行嵌入，其中 $\mathcal{T}_{j}$ 是类型 $j$ 的所有多模态token 的空间， $d_{e}$ 为模型的嵌入维度
图像patch 通过视觉Transformer 进行编码
文本token 通过嵌入矩阵
连续输入通过仿射投影

注意力掩码 $A\left((\rho(i))_{i=1}^{n}\right) \in\{-\infty, 0\}^{n \times n}$ 则指示哪些token 可以彼此进行注意力计算
transformer[47] 是一个函数 $f: \mathbb{R}^{n \times d_{e}} \rightarrow \mathbb{R}^{n \times d_{e}}$ ，它将 $n$ 个输入嵌入映射为 $n$ 个输出嵌入。它通过堆叠多个模块构建，每个模块由一个注意力层、一个前馈层和归一化层组成

设 $X=x_{1: n} \in \mathbb{R}^{n \times d_{e}}$
故，标准transformer中的注意力层计算为
$\operatorname{attn}(X)=E(X) W_{V}, W_{V} \in \mathbb{R}^{d_{e} \times d_{v}}$

其中
$E(X)=P(X) V(X)$ ,
$P(X)=\operatorname{softmax}\left(Q(X) K(X)^{T}\right)$
而 $Q(\cdot), K(\cdot), V(\cdot)$ 分别是所谓的查询、键和值投影，例如 $Q(X)=X Q_{m}, Q_{m} \in \mathbb{R}^{d_{e} \times d_{q}}$ ，其中 $d_{q}$ 是投影的维度

与标准transformer相比，作者的模型按照[28] 的建议

为不同的token 使用独立的权重进行处理
与π0 [7] 类似，作者从PaliGemma [4] 初始化VLM，并为动作token 使用更小的权重集合，这在生成动作时显著减少了推理时间
主干和动作token 拥有各自的查询、键和值投影，但这些投影的维度 $d_{q}, d_{k}, d_{v}$ 是相同的，以便专家之间可以相互交互

大多数 VLA 都是在大规模机器人行为克隆数据集上进行训练的。对于自回归架构，标准的训练流程是最小化目标标记的负对数似然

$\begin{array}{l} \mathcal{L}_{\text {AR--VLA }}(\theta) \\ =\mathbb{E}_{(x, y) \sim \mathcal{D}}\left[-\log p_{\theta}\left(y_{1: n} \mid x_{1: n}\right)\right]\\ =\mathbb{E}_{(x, y) \sim \mathcal{D}}-\sum_{j=1}^{n-1} M_{j} \log p_{\theta}\left(y_{j+1} \mid x_{1 ; j}\right) \end{array}$

其中M 是一个损失掩码，用于指示哪些标记需要被预测，D 是一个数据集（通常假设x = y）。在使用流匹配进行动作预测的情况下，损失为

$\mathcal{L}_{\text {FLOW-VLA }}(\theta)=\mathbb{E}_{\mathcal{D}, \tau, \omega}\left[\left\|\omega-a_{1: H}-f^{a}\left(a_{1: H}^{\tau, \omega}\right)\right\|^{2}\right]$

1.2.2 标准VLA方法的问题：自回归VLA推理慢、动作专家从VLM预训练知识中获益不大等

在下图图2中所示的机器人被指示将勺子送入垃圾桶的任务中

π0[7]（左）忽略了指令，反而抓起了一块垃圾——当然要注意的是，不是说π0没有指令遵循能力，而是在一些任务中该能力较弱甚至遵循错误
π0-FAST[37]（中）最终能够完成任务，但其推理速度非常慢
KI改进版π0.5的方案（右）不仅完成了任务，推理速度快，且模型能够非常迅速地收敛到良好的性能（参见图6b）

具体而言，当前VLA训练方法存在的问题包含

自回归VLA的(推理)速度较慢
自回归VLA将预测实值动作的问题转化为离散的下一个token预测问题，这不仅限制了模型所能表示的数值分辨率，还导致推理过程缓慢且具有顺序性

在RTX4090 GPU上，π0-FAST预测1秒动作片段的推理时间约为750毫秒[37]。正如作者在实验中所展示的，这可能导致动力学不匹配以及整体轨迹变慢
机器人特定架构和模态适配器从VLM 预训练中受益不大
像π0 [7] 或GROOT [6] 这样的架构包含专为机器人设计的模块，从而实现更快的推理
例如，π0 架构中的动作专家参数量少于VLM 主干，因此π0 能够实现10 Hz 的控制频率，这比自回归VLA（1.3 Hz）要快得多
虽然这些模型的部分组件是从预训练的VLM（如视觉编码器或语言模型主干）初始化的，但机器人特定模块则是从头开始初始化

而本文工作的关键出发点，便是因为：对这样一个随机初始化的动作专家进行简单训练，会损害模型遵循语言指令的能力(作者推测是由于梯度干扰所致)
VLM 预训练对于机器人领域的表征能力不足——冻结权重的方法并不可行
直观来看，维持 VLM预训练所得知识、从而避免上述问题的最简单方法是冻结已预训练的权重，仅训练新加入的、针对机器人任务的权重
然而，当前的 VLM 并未使用机器人领域的数据进行预训练。因此，在权重被冻结的情况下，其表征能力对于机器人训练高性能的策略而言是不足的——说白了，就是VLM也是需要训练的，毕竟其训练时并没有啥机器人数据

1.3 完整方法论：KI改进版π0.5通过协同训练、联合训练与知识隔离提升VLA

为了克服上文(原论文第4节中)所述的以往VLA方法的局限性，作者考虑了一系列改进措施

具体而言，作者提出：

对模型同时进行自回归和流匹配动作预测的联合训练（joint-training）
该模型使用（更小的）动作专家在测试时生成连续动作，以实现快速推理。自回归目标仅在训练阶段作为表征学习目标使用，这使模型能够更快地完成训练

说白了，就是训练自回归、推理连续动作表示，从而兼顾训练快、推理快
对模型进行联合训练，使用非动作数据集，如通用视觉-语言数据和机器人规划数据（VLM数据联合训练）
在这些数据源上训练可以确保模型在适配为VLA时，知识损失更少
停止动作专家与主干权重之间的梯度流
这样，在将预训练的VLM适配为VLA时，新初始化的动作专家权重不会干扰预训练权重

1.3.1 联合离散/连续动作预测的协同训练与表征学习

为了实现与VLM 数据的高效协同训练、增强从语言到策略的知识迁移，并实现快速训练，作者考虑在一个模型中结合自回归语言、离散动作预测、以及连续动作的流匹配建模

具体来说，作者提出学习一个模型，从中可以采样实值动作片段 $a_{1: H}$ ， $a_{i} \in \mathbb{R}^{d}$ ，以及文本 $\widehat{\ell}$ ，即模型的输出空间为 $y=\left(a_{1: H}, y^{\ell, a}\right)$
其中
$\rightarrow$ $a_{1: H}$ 为连续动作-比如-1.7 1.25 3.14 1.42
$\rightarrow$ $y^{\ell, a}$ 表示语言token-比如pick up the sleeve「描述机器人接下来应该做什么进行注释」，以及离散化的动作token——比如-17 12 34 142「使用FAST [37] tokenizer 将连续动作转换为离散token」
随后，作者可以从模型中联合采样动作和文本
$(a, \hat{\ell}) \sim \pi\left(\cdot, \cdot \mid I_{1: V}, q, \ell\right)$

并用token 的组合来训练模型预测
参见LAR-VLA于(2)
$\begin{array}{l} \mathcal{L}_{\text {AR--VLA }}(\theta) \\ =\mathbb{E}_{(x, y) \sim \mathcal{D}}\left[-\log p_{\theta}\left(y_{1: n} \mid x_{1: n}\right)\right]\\ =\mathbb{E}_{(x, y) \sim \mathcal{D}}-\sum_{j=1}^{n-1} M_{j} \log p_{\theta}\left(y_{j+1} \mid x_{1 ; j}\right) \end{array}$
和流匹配损失
参见LFLOW-VLA于(3)
$\mathcal{L}_{\text {FLOW-VLA }}(\theta)=\mathbb{E}_{\mathcal{D}, \tau, \omega}\left[\left\|\omega-a_{1: H}-f^{a}\left(a_{1: H}^{\tau, \omega}\right)\right\|^{2}\right]$

同时进行，即如下公式4所示
$\mathcal{L}_{\mathrm{CO}-\mathrm{VLA}}(\theta)=\mathbb{E}_{\mathcal{D}, \tau, \omega}\left[-\sum_{j=1}^{n-1} M_{j}^{\ell} \log p_{\theta}\left(\hat{\ell}_{j+1} \mid x_{1: j}\right)+\alpha M^{\mathrm{act}}\left\|\omega-a_{1: H}-f_{\theta}^{a}\left(a_{1: H}^{\tau, \omega}\right)\right\|^{2}\right]$

其中
$\rightarrow$ $\alpha$ 是一个损失倍增器，用于在通过流匹配进行动作预测与标准语言建模损失之间进行权衡
$\rightarrow$ $M^{\ell}$ 是一个语言损失掩码（指示在token流中应该：应用语言损失的位置，即indicating locations in the token stream at which the language loss should be applied）
$\rightarrow$ 而 $M^{\text {act }}$ 是一个动作掩码指示器，用于指定是否应为给定样例预测动作。这种损失构建方式使得能够灵活地将来自不同模态的数据进行混合协同训练

具体来说，作者将
VLM 数据（仅包含图像和文本注释）
与仅有动作的数据（任务是在图像和文本条件下进行动作预测），以及结合了语言和动作预测任务的数据（作者对仅有动作的数据额外用语言描述机器人接下来应该做什么进行注释，比如pick up the sleeve）[53]
进行组合
如此，作者认为，这种不同模态数据的混合能够增强最终VLA 中的知识迁移能力
$\hat{\ell}$ 同时包含文本(语言)token和FAST 分词后的(离散化)动作token
关键的是，作者设置注意力掩码 $A$ ，使得任何离散FAST 动作token都不能关注连续动作token，反之亦然

作者认为，他们的实验表明，这种联合训练目标能够兼得两者的优点：通过使用FAST动作token学习良好表征实现训练过程的快速收敛，同时还能通过少量流积分步骤实现连续动作的快速推理——相当于兼顾训练快、推理快

对于上面这句：“作者设置注意力掩码 $A$ ，使得任何离散FAST 动作token都不能关注连续动作token，反之亦然”，值得补充解释下

根据此文《π0.5——离散化token自回归训练，推理时则用连续动作表示，且加强推理(同一个模型中先高层拆解出子任务，后低层执行子任务)》的「1.4 π0.5的训练方案：先预训练后微调」，可知

他们——即π0.5，利用注意力矩阵确保不同的动作表示之间，不会相互关注，且最终经过优化，以最小化组合损失

$\begin{aligned} \mathbb{E}_{\mathcal{D}, \tau, \omega} & {\left[H\left(x_{1: M}, f_{\theta}^{\ell}\left(\mathbf{o}_{t}, \ell\right)\right)\right.} \\ & \left.+\alpha\left\|\omega-\mathbf{a}_{t: t+H}-f_{\theta}^{a}\left(\mathbf{a}_{t: t+H}^{\tau, \omega}, \mathbf{o}_{t}, \ell\right)\right\|^{2}\right] \end{aligned}$

其中 $H\left(x_{1: M}, y_{1: M}^{\ell}\right)$ 是文本token和预测对数值logits(包括FAST编码的动作token)之间的交叉熵损失
$y_{1: H}^{a}=f_{\theta}^{a}\left(\mathbf{a}_{t: t+H}^{\tau, \omega}, \mathbf{o}_{t}, \ell\right)$ 是(较小的)动作专家的输出
$\alpha \in \mathbb{R}$ 是一个权衡参数

对于上面这点，与本KI改进版π0相似的另一个工作：HybridVLA确实不一样——比如HybridVLA允许自回归token 关注连续动作，具体下文的「2.2.1 任务表现与基线对比」节中会详述

1.3.2 知识隔离与梯度流动

通过流匹配训练的动作专家的梯度，可能会对图像编码器和语言模型主干的训练动态产生不利影响；尤其是在将一个新、随机初始化的动作专家添加到一个预训练主干时

因此，作者建议停止动作专家到模型中预训练权重的梯度流。当然了，这只有在主干还被额外训练为直接预测动作作为其语言输出的一部分时，才是合理的限制

由于作者提出联合对模型进行离散动作训练，故他们认为可以确保transformer 层的组合激活包含足够的信息来推断动作。预训练模型主干和动作专家仅通过注意力层进行交互

为了阻止动作专家的梯度流入主干，需要如下修改注意力层

对于单头注意力的情况，可以将注意力操作写为
$P=\operatorname{softmax}\left(Q(X) K(X)^{T}+A\right)=\left(\begin{array}{cc} P_{b b} & 0 \\ P_{a b} & P_{a a} \end{array}\right)$
其中 $X$ 是注意力层的输入， $Q$ , $K$ 分别是注意力查询和键投影， $A$ 是如上所述的注意力掩码，softmax 是按行进行的softmax 操作

其结果是对token 特征的注意力概率，这些概率可分解为：
$\rightarrow$ VLM 主干的特征关注主干特征的概率 $P_{b b}$
$\rightarrow$ 动作专家特征关注主干特征的概率 $P_{a b}$
$\rightarrow$ 以及动作专家特征关注其他动作专家特征的概率 $P_{a a}$
基于此，作者可以通过如下实现softmax 计算来按需限制信息流
$\left(\begin{array}{cc} P_{b b} & 0 \\ P_{a b} & P_{a a} \end{array}\right)=\operatorname{softmax}\left(\left(\begin{array}{cc} Q_{b}\left(X_{b}\right) K_{b}\left(X_{b}\right)^{T} & 0 \\ Q_{a}\left(X_{a}\right) \operatorname{sg}\left(K_{b}\left(X_{b}\right)^{T}\right) & Q_{a}\left(X_{a}\right) K_{a}\left(X_{a}\right)^{T} \end{array}\right)+A\right)$

其中
$\text { sg }$ 表示停止梯度（stop-gradient）操作符，用于限制该部分计算中的梯度流动
$X_{b}$ 对应于所有用主干权重处理的 $x_{i}$
$X_{a}$ 对应于用动作专家权重处理的tokens

然后，值嵌入通过以下方式计算
$E=\binom{E_{b}}{E_{a}}=\binom{P_{b b} V_{b}\left(X_{b}\right)}{P_{a b} \operatorname{sg}\left(V_{b}\left(X_{b}\right)\right)+P_{a a} V_{a}\left(X_{a}\right)}$

最终的注意力为 $\operatorname{attn}(X)=P E$
这种设计的另一个优点是可以在(公式4) 中简单地设置 $\alpha=1$ ，因为现在扩散损失项适用于一组独立的权重

// 待更

第二部分实验

2.1 任务设置与评估

2.1.1 任务设置、数据集设置

作者在现实世界中对涉及多种不同机器人形态（见图3）的灵巧、长时序操作任务进行了方法评估，任务包括

清理桌面（“餐桌整理”）
使用双臂静态机器人折叠衬衫（称为“衬衫折叠”）
用单臂静态机器人将家居物品放入抽屉（“物品入抽屉”）
以及多个涉及双臂移动操作机器人的任务

对于后两类任务，作者仅在模型未见过任何数据的保留场景中进行评估。此外，作者还在LIBERO仿真基准[30]和现实世界的DROID[23]上展示了实验结果

且既训练了针对单一机器人形态的模型，也训练了通用模型，这些通用模型在大量不同机器人和多种任务的大规模混合数据上进行训练，包括非动作预测任务，如图像描述、边界框预测和机器人规划。有关任务、数据集和模型训练的详细信息，请参见附录A、B

2.1.2 实验评估关注的重点：性能、语言遵循能力、泛化能力

实验评估主要关注以下几个问题

性能
KI改进版π0.5的方法在绝对任务性能方面与强大的基线方法如VLAs π0[7]、π0-FAST[37]、HybridVLA[32]、OpenVLA-OFT[25]相比表现如何？
知识隔离
停止梯度流动会产生什么影响？
语言遵循性
许多机器人策略的一个常见局限是它们比起语言输入，更加关注图像[25]。哪些建模选择会影响模型对语言输入的关注程度，从而影响任务的完成效果？
收敛速度
KI改进版π0.5的模型在训练步数方面的训练速度有多快？
泛化能力
KI改进版π0.5的架构不仅可以在机器人动作数据上训练模型，还能利用其他数据源，如视觉问答（VQA）、图像描述或边界框预测
那能否将这些数据源中的知识迁移到动作专家的动作生成上？
状态表示
不同的机器人状态表示会如何影响模型表现？

2.1.3 训练对比角度：涉及OpenVLA-OFT、HybridVLA等

作者考虑以下基线和消融方法，并在他们的数据混合集上重新训练它们：

π0[7] 使用动作专家、连续动作，并且仅在机器人数据上进行训练
π0-FAST[37] 是一种带有token压缩的自回归VLA，仅在机器人数据上进行训练
OpenVLA-OFT[25] 对标准自回归VLA进行了修改，使其能够使用带有双向注意力的并行解码
作者在本研究中采用了这种方法，但未使用FiLM，并保留了文本状态
Transfusion[58] 在同一Transformer主干中对连续输入进行去噪。最初的Transfusion工作将其方法应用于图像生成。本文作者将其改编用于机器人动作
HybridVLA[32]同时以Transfusion和简单自回归token化方式训练VLA
自回归token可以关注扩散输入
作者对该架构进行了轻微修改，使其在连续token上也能使用动作专家
联合训练(没有使用停止梯度)
与KI改进版π0.5的模型差不多，但没有使用停止梯度(此绿色粗体代表有VLM)
联合训练(没有使用停止梯度且无VLM数据)
该消融实验同时移除了停止梯度和在VLM数据上的联合训练，这也可以被视为HybridVLA [32]的一种变体，即同时训练两种动作表示，但与HybridVLA相比，本次联合训练(无VLM)的自回归token无法关注流匹配输入
将朴素分词作为表示学习目标，与FAST进行比较（见第3节）

2.2 任务表现、语言遵循表现、迁移表现

2.2.1 任务表现与基线对比

对于 “抽屉中的物品” 任务，该任务既需要准确地遵循语言指令（以选择正确的物体），又需要精确的操作（打开厨房抽屉），所有基线方法的表现都明显不如KI改进版π0.5提出的方法（见图4a）

常见的失败模式是无法打开抽屉。需要注意的是，此任务是在一个保留环境中进行评估的。特别地，联合训练基线（无停止梯度）在遵循语言指令方面存在问题，π0.π0 -FAST 在许多情况下移动缓慢且无法精确打开抽屉
HybridVLA [32] 是在方法上与KI改进版π0.5的方法最为相似的基线，因为它同样在离散和连续动作上进行联合训练，但允许自回归token 关注连续动作。这似乎大大影响了该任务的性能『即HybridVLA [32], since it also jointly trains on both discretized and continuous actions, butallows autoregressive tokens to attend to continuous actions，详见此文《HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散》』
但，按照KI改进版π0.5提出的方法：设置注意力掩码——详见上文此节「1.3.1 联合离散/连续动作预测的协同训练与表征学习」的最后，能够带来更好的表现

KI改进版π0.5方法以及其他基线在 “餐桌整理” 任务上的建模选择的详细消融分析见图5

KI改进版π0.5的方法表现最佳，此处联合训练也表现良好
π0 -FAST 较慢，完成任务所需时间是其他方法的两倍
Transfusion 表现良好，但比KI改进版π0.5的方法慢
使用并行解码（OpenVLA-OFT）通常也表现更差
冻结骨干网络并不是知识隔离的可行选项，因为预训练模型中的表征对于机器人领域来说并不充分，导致性能较低——说白了VLM 还是得继续微调/学习（参见图4a和叠衬衫任务，图8）
其中π0由于在他们的大规模单体数据混合集上训练，也表现不佳

在这种情况下，冻结骨干网络或并行解码同样不是有效策略
且作者还在开源基准DROID [23]上评估了他们的通用模型，任务集与[37]中的桌面操作任务相同。KI改进版π0.5的方法得分为0.55±0.09，π0得分为0.49±0.09，π0-FAST为0.45±0.09
最后，如表1所示，KI改进版π0.5的方法在LIBERO-90和LIBERO-Spatial [30]上取得了新的最先进水平。该模型是在通用stop-gradient + VLM数据联合训练模型的基础上，在LIBERO上进行了微调，因为通用模型的原始训练混合集中并未包含LIBERO数据

2.2.2 通用VLA 评估：证明阻断梯度流的必要性

此前的结果只考虑了仅用目标实体数据训练的VLA（尽管包含的任务比作者评估的更多），接下来将评估在联合训练所有可用数据时，KI改进版π0.5的方法表现如何

图6a 显示
在” 桌面清理” 任务中，KI改进版π0.5的方法实现了与上述实体特定结果相当的性能
相比之下，联合训练『要么没有使用停止梯度(此绿色粗体代表有VLM)——可证明阻断梯度流的有用性，要么没有使用停止梯度 + 去除VLM数据』会导致任务完成度下降
对于任务完成比
作者还展示了去除VLM 数据(例如，把KI改进版π0.5的方法削弱下，使得不包含VLM 数据)会使任务完成百分比略微下降——证明了VLM对任务效果的有用性
对于语言遵循能力
有趣的是，在观察策略遵循人类提供的清理桌面语言指令的比例时，去除VLM 数据对联合训练的影响最大，此，证明了VLM数据参与联合训练对指令遵循效果的有用性
作者推测，在这种情况下，这些数据对于避免与预训练表征发生灾难性干扰尤为重要
最后，作者在4项移动操作任务上评估了KI改进版π0.5的方法（例如，将餐具放入水槽，详见A.2.2 节）。结果如图所示

2.2.3 语言遵循能力：不使用stop-gradient影响不大，但没有VLM影响很大

在任何场景中，机器人通常可以执行多种合理的动作，例如抓取不同的物体。在本部分，作者评估不同模型在接收到特定任务（通过自然语言指令提供）时，是否会执行旨在完成该任务的动作。这对于具有长远目标的任务尤为重要，例如清理厨房台面，这类任务中模型可能会因过度依赖图像输入而在提供的数据上过拟合，从而解决长远任务

作者假设，如果VLA能够保留更多其VLM预训练的知识，那么它更有可能关注实际的语言输入
如图4b所示，阻断来自动作专家的梯度流是一种比π0和联合训练(不使用stop-gradient且未与VLM数据联合训练)更有效提升语言遵循能力的方法
如上所述，如果模型与VLM数据联合训练，如图6a、图5和图7所示，那么即便不使用stop-gradient，联合训练也能取得良好的语言遵循表现——因为有VLM数据参与联合训练的存在

下图是上文出现过的图5
此外，transfusion（见图5）在语言遵循方面优于带有动作专家的π0，这可以通过其复用主干权重进行连续动作生成，且仅有动作投影部分为新初始化参数来解释