【AI学习】李广密与阶跃星辰首席科学家张祥雨对谈：多模态发展的历史和未来

仔细阅读了文章《专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻》
https://mp.weixin.qq.com/s/892QuRPH9uP6zN6dS-HZMw

非常赞叹的一篇文章，说清楚了NLP、CV发展中的许多重大问题，读来醍醐灌顶！这样的文章，至少需要读三遍！
在这里插入图片描述

重要语句摘录

大家觉得模型架构设计细节非常关键，但实际上很多时候我们发现架构是没有用的，尤其对于大模型来说，架构设计更多的是针对大方向，只要大方向对了，比如用了 ResNet，至于里面的层间如何连接，效果差别是不大的。
2019 年 NLP 进展非常大，很多人说是因为 transformer，但其实并不是，架构在这里面不起主要作用，起主要作用的是优化方法。
但我对此一直谨慎乐观，因为很多方法都是在小模型上 work，一旦放到大的模型上面，会发现它完全不像 NLP 那样有 scale up 的特性。大概到 2021 年底的时候，我仔细分析了为什么早期大家做 contrastive learning 放到大模型上不 work，MIM 效果可能好一些。原因是，这些不管是 contrastive learning 还是 MIM，都是在学习某种“不变性”。确实“不变性”对于视觉的 representation 来说是非常关键的，但问题是它学到的“不变性”不是 data-riven 的，而是完全 handcrafted 的。
NLP 为什么能够 work？因为它是真正做到了 learn from data，有越高质量的语料，模型就可以学习语料中的关联性，建模它的联合分布，通过压缩学到更多的知识。但 CV 不行，你设计了一个什么样的不变性，比如说对于旋转、color augmentation 或者 multi-crop 这样的不变性，最后学到的特征就是满足你所设计的那几个不变性。它当然没有 scale up 的效果，因为你只需要少量 data，就可以让模型学会，然后就没有信息增量了。
对于自然语言数据，它的生成在 GPT 框架下，生成、理解和人类对齐这三件事是合三为一的。
图像数据，尤其是静态图像数据，从生成、理解和人类对齐这三个维度，你会发现它不是自闭环的。
我们看到更大模型在理科问题上效果变差，是因为更大模型在学习时更倾向于跳步。但为什么相对较小的模型训练后反而不会跳步？我认为这就是 next token prediction 的本质缺陷。Next token prediction 是 GPT 核心范式，也是支撑这一代大模型起飞的最基础的算法。它的本质是联合概率建模：模型在优化过程中会尽可能调整输出，使输出数据的分布越来越接近输入数据的分布。也可理解为压缩，根据信息论，对于一个压缩器来说，联合概率估计的越准，对数据做无损压缩的时候，码率越小，即模型通过对自身压缩和归纳，获得智能。
数学问题上，这两件事存在一个非常本质的 gap：更大的压缩率未必对应更高的计算精度。这个现象非常糟糕，可能直接指向了 next token prediction 的本质缺陷。现在 next token prediction 在业界受到的批评也很多了，因为它本质是 behavior cloning，天生容易 OOD、在中间出现分叉，陷入一个没见过的环境，很多幻觉就是这样产生的。但是我刚刚发现这个现象的时候，可能在业界讨论还不多，是一个比较有趣的问题。
当然解决方案也比较自然，就是引入 RL，next token prediction 本质上还是基于信息论去最大化压缩率，如果问题本身和压缩率这两个优化目标之前存在 gap，那还不如直接关心优化任务的本身，这就是引入 RL 的依据。
最核心的原因还是在于语言是有 pre-training 的，且这个 pre-training 很重，和打游戏场景几乎完全靠冷启动或者非常轻量级的 pre-training 完全不同。看起来语言模型解决一个困难问题的时候，决策训练是很长的。但跟传统游戏和控制相比，由于存在预训练，实际的 action space 是非常小的，只要想办法把几个 critical tokens 搜对就解决了。
解决方法也就非常显而易见了：如果允许它两条分支都走，不就解决了嘛？其实就是引入反思。o1 范式最了不起的一点就是引入反思。
我们发现其实 o1 激发出来的这些经验证比较 work 的 pattern（比如 wait、alternative、recheck、validation）在预训练预料中其实都有。
这样在 cold start 阶段把这些 pattern 激发出来，再用 RL 来强化这些 pattern，虽然很稀疏但到处都有这些 pattern 的散步，顺带着就把和这些语料相连的广大领域里面的 pattern 都激发出来了，融会贯通，这是我们认为有强泛化性的主要原因。
这种对原图局部 re-size、crop 的方式，虽然看起来很原始，但预训练里面是有的，它严格遵循了预训练语料里面的 pattern，所以效果反而好；我们之前的方式虽然看起来科学，但是预训练语料中没有，所以效果反而差。
这也是许多同行都发现的一个事实：RL 不能无中生有，所有知识和能力在预训练语料中都已经有分布了
OpenAI 的 o1 同样是 RL，与之前范式有什么不同？很多人都觉得是 RL 算法或者数据的演进，但其实都不是，算法还是 rule-based RL。核心原因是思维链的 pattern。很多人都说，做思考模型，本质就是 pattern is all you need，你要找到最佳的思维链组织方式，再由 RL 方法来激发。

重要观点

1、模型规模与推理能力的矛盾
◦ 模型 scale 到万亿参数后，在文本生成和知识问答能力增强的同时，推理能力，尤其是数学，却呈现出能力随规模增长反而下降的现象。
◦ 更大的模型倾向于跳步，直接输出答案，而较小的模型则倾向于一步步计算，导致大模型在理科问题上表现不佳。
◦ 模型的通用对话能力（尤其是情商）和知识量随着规模扩大而增强，但推理能力（尤其是数学类问题）表现为先上升再平稳，扩大到一定程度反而下降。
2. Next Token Prediction 的缺陷
◦ Next Token Prediction 本质上是基于信息论去最大化压缩率，若问题本身与压缩率存在目标差异，会导致推理精度下降。
◦ 大模型在学习时更倾向于跳步，因为互联网数据中人类常省略中间过程，而小模型通过逐步推导避免错误。
◦ 数学问题要求高精度，大模型的跳步行为可能导致少量错误累积，最终错误率显著增加。
3. Rule-based RL 与 o1 范式
◦ Rule-based RL 可通过直接优化任务目标，迫使模型选择可靠推理路径，抑制跳步并强化稳定思维链。
◦ o1 范式的核心是激发 Meta CoT 思维链，允许模型在关键节点反悔、重试，使推理过程从单线变为图状结构。
◦ RL 跳出了拟合分布的范畴，直达最终目标，缓解大模型跳步缺陷，尤其在数学推理中效果显著。
4. 多模态推理的挑战
◦ 多模态生成理解一体化难以实现的原因在于语言对视觉的控制能力弱、图文对齐不精确。
◦ 视觉模型缺乏 robust 的 CoT 机制，需通过扩展动作空间或高可控生成解决，但数据纯度和难度控制是关键。
5. 数据与训练的瓶颈
◦ 训练多模态模型时，数据量和算力需求呈平方关系，早期低估了数据的重要性，导致模型效果不佳。
◦ 自监督学习在 CV 领域效果有限，因方法仅学习人工设计的“不变性”，无法从数据中激发出更多“不变性” 。
6. 自主学习与 AGI 的关联
◦ 自主学习是实现 AGI 的重要路径，通过在线学习和 RL 机制，模型可独立优化目标，减少对人工规则的依赖。
◦ 未来模型可能具备更高效的泛化能力，但需解决环境反馈、内生奖励模型等核心问题。
7. Long Context 的局限性
◦ Transformer 架构在建模 long context 时存在注意力涣散、性能下降等问题，需通过压缩信息或多模型协作解决。
◦ 信息不加工压缩无法产生智能，当前范式需突破对长上下文的依赖。
8. 技术路线的演进
◦ 从 NLP 的 GPT 时刻到 CV 领域的挑战，多模态模型需融合生成与理解，但难度远超语言模型。
◦ 未来突破可能依赖数据清洗、算法创新（如 RNN-like 架构）及多模态协同训练。
9.关于Agent
现在的 agent 和 openAI 提的 agent 很可能不是一件事。OpenAI 提出的智能度的五级分类法是非常有逻辑的：第一级是 chatbot，第二级是 reasoning，第三级是 agent，他们讲的 agent 和我们今天说的 agent 应用差别是挺大的。
OpenAI 五级背后的潜台词是每一级都得有一个全新的算法，比如 chatbot 的形态本质就是 next token prediction；reasoning 背后的 o 系列是 RL 思维链主导的时代，而且 RL 往后越来越会 scale up，所以 RL 主导的时代就是 reasoning。
我认为主导 Agent 的算法就是自主在线学习。因为 agent 特别强调自主性，不需要人工设计这么多环境、定义这么多规则。现在的 reasoning 系统还是一个 KPI 驱动的，第一是训练结束不能再继续提高，第二是训练过程完全依赖人工给定目标，但比 NTP 还是要好一些的，因为 NTP 不仅要人来给目标，还要让他达到这个方向的路径背下来，而现在可以做到给模型一个目标，模型自己去实现就好。自主学习是将目标放宽，模型得自己去找目标，自己来学习自己的价值，所以 OpenAI 的 agent 是能够独立工作，自我进化