【AI学习】李广密与阶跃星辰首席科学家张祥雨对谈:多模态发展的历史和未来

仔细阅读了文章《专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻》
https://mp.weixin.qq.com/s/892QuRPH9uP6zN6dS-HZMw

非常赞叹的一篇文章,说清楚了NLP、CV发展中的许多重大问题,读来醍醐灌顶!这样的文章,至少需要读三遍!
在这里插入图片描述

重要语句摘录

  • 大家觉得模型架构设计细节非常关键,但实际上很多时候我们发现架构是没有用的,尤其对于大模型来说,架构设计更多的是针对大方向,只要大方向对了,比如用了 ResNet,至于里面的层间如何连接,效果差别是不大的。
  • 2019 年 NLP 进展非常大,很多人说是因为 transformer,但其实并不是,架构在这里面不起主要作用,起主要作用的是优化方法。
  • 但我对此一直谨慎乐观,因为很多方法都是在小模型上 work,一旦放到大的模型上面,会发现它完全不像 NLP 那样有 scale up 的特性。大概到 2021 年底的时候,我仔细分析了为什么早期大家做 contrastive learning 放到大模型上不 work,MIM 效果可能好一些。原因是,这些不管是 contrastive learning 还是 MIM,都是在学习某种“不变性”。确实“不变性”对于视觉的 representation 来说是非常关键的,但问题是它学到的“不变性”不是 data-riven 的,而是完全 handcrafted 的。
  • NLP 为什么能够 work?因为它是真正做到了 learn from data,有越高质量的语料,模型就可以学习语料中的关联性,建模它的联合分布,通过压缩学到更多的知识。但 CV 不行,你设计了一个什么样的不变性,比如说对于旋转、color augmentation 或者 multi-crop 这样的不变性,最后学到的特征就是满足你所设计的那几个不变性。它当然没有 scale up 的效果,因为你只需要少量 data,就可以让模型学会,然后就没有信息增量了。
  • 对于自然语言数据,它的生成在 GPT 框架下,生成、理解和人类对齐这三件事是合三为一的。
  • 图像数据,尤其是静态图像数据,从生成、理解和人类对齐这三个维度,你会发现它不是自闭环的。
  • 我们看到更大模型在理科问题上效果变差,是因为更大模型在学习时更倾向于跳步。但为什么相对较小的模型训练后反而不会跳步?我认为这就是 next token prediction 的本质缺陷。Next token prediction 是 GPT 核心范式,也是支撑这一代大模型起飞的最基础的算法。它的本质是联合概率建模:模型在优化过程中会尽可能调整输出,使输出数据的分布越来越接近输入数据的分布。也可理解为压缩,根据信息论,对于一个压缩器来说,联合概率估计的越准,对数据做无损压缩的时候,码率越小,即模型通过对自身压缩和归纳,获得智能。
  • 数学问题上,这两件事存在一个非常本质的 gap:更大的压缩率未必对应更高的计算精度。这个现象非常糟糕,可能直接指向了 next token prediction 的本质缺陷。现在 next token prediction 在业界受到的批评也很多了,因为它本质是 behavior cloning,天生容易 OOD、在中间出现分叉,陷入一个没见过的环境,很多幻觉就是这样产生的。但是我刚刚发现这个现象的时候,可能在业界讨论还不多,是一个比较有趣的问题。
  • 当然解决方案也比较自然,就是引入 RL,next token prediction 本质上还是基于信息论去最大化压缩率,如果问题本身和压缩率这两个优化目标之前存在 gap,那还不如直接关心优化任务的本身,这就是引入 RL 的依据。
  • 最核心的原因还是在于语言是有 pre-training 的,且这个 pre-training 很重,和打游戏场景几乎完全靠冷启动或者非常轻量级的 pre-training 完全不同。看起来语言模型解决一个困难问题的时候,决策训练是很长的。但跟传统游戏和控制相比,由于存在预训练,实际的 action space 是非常小的,只要想办法把几个 critical tokens 搜对就解决了。
  • 解决方法也就非常显而易见了:如果允许它两条分支都走,不就解决了嘛?其实就是引入反思。o1 范式最了不起的一点就是引入反思。
  • 我们发现其实 o1 激发出来的这些经验证比较 work 的 pattern(比如 wait、alternative、recheck、validation)在预训练预料中其实都有。
  • 这样在 cold start 阶段把这些 pattern 激发出来,再用 RL 来强化这些 pattern,虽然很稀疏但到处都有这些 pattern 的散步,顺带着就把和这些语料相连的广大领域里面的 pattern 都激发出来了,融会贯通,这是我们认为有强泛化性的主要原因。
  • 这种对原图局部 re-size、crop 的方式,虽然看起来很原始,但预训练里面是有的,它严格遵循了预训练语料里面的 pattern,所以效果反而好;我们之前的方式虽然看起来科学,但是预训练语料中没有,所以效果反而差。
  • 这也是许多同行都发现的一个事实:RL 不能无中生有,所有知识和能力在预训练语料中都已经有分布了
  • OpenAI 的 o1 同样是 RL,与之前范式有什么不同?很多人都觉得是 RL 算法或者数据的演进,但其实都不是,算法还是 rule-based RL。核心原因是思维链的 pattern。很多人都说,做思考模型,本质就是 pattern is all you need,你要找到最佳的思维链组织方式,再由 RL 方法来激发。

重要观点

1、模型规模与推理能力的矛盾
◦ 模型 scale 到万亿参数后,在文本生成和知识问答能力增强的同时,推理能力,尤其是数学,却呈现出能力随规模增长反而下降的现象。
◦ 更大的模型倾向于跳步,直接输出答案,而较小的模型则倾向于一步步计算,导致大模型在理科问题上表现不佳。
◦ 模型的通用对话能力(尤其是情商)和知识量随着规模扩大而增强,但推理能力(尤其是数学类问题)表现为先上升再平稳,扩大到一定程度反而下降。
2. Next Token Prediction 的缺陷
◦ Next Token Prediction 本质上是基于信息论去最大化压缩率,若问题本身与压缩率存在目标差异,会导致推理精度下降。
◦ 大模型在学习时更倾向于跳步,因为互联网数据中人类常省略中间过程,而小模型通过逐步推导避免错误。
◦ 数学问题要求高精度,大模型的跳步行为可能导致少量错误累积,最终错误率显著增加 。
3. Rule-based RL 与 o1 范式
◦ Rule-based RL 可通过直接优化任务目标,迫使模型选择可靠推理路径,抑制跳步并强化稳定思维链。
◦ o1 范式的核心是激发 Meta CoT 思维链,允许模型在关键节点反悔、重试,使推理过程从单线变为图状结构。
◦ RL 跳出了拟合分布的范畴,直达最终目标,缓解大模型跳步缺陷,尤其在数学推理中效果显著 。
4. 多模态推理的挑战
◦ 多模态生成理解一体化难以实现的原因在于语言对视觉的控制能力弱、图文对齐不精确。
◦ 视觉模型缺乏 robust 的 CoT 机制,需通过扩展动作空间或高可控生成解决,但数据纯度和难度控制是关键 。
5. 数据与训练的瓶颈
◦ 训练多模态模型时,数据量和算力需求呈平方关系,早期低估了数据的重要性,导致模型效果不佳。
◦ 自监督学习在 CV 领域效果有限,因方法仅学习人工设计的“不变性”,无法从数据中激发出更多“不变性” 。
6. 自主学习与 AGI 的关联
◦ 自主学习是实现 AGI 的重要路径,通过在线学习和 RL 机制,模型可独立优化目标,减少对人工规则的依赖。
◦ 未来模型可能具备更高效的泛化能力,但需解决环境反馈、内生奖励模型等核心问题 。
7. Long Context 的局限性
◦ Transformer 架构在建模 long context 时存在注意力涣散、性能下降等问题,需通过压缩信息或多模型协作解决。
◦ 信息不加工压缩无法产生智能,当前范式需突破对长上下文的依赖 。
8. 技术路线的演进
◦ 从 NLP 的 GPT 时刻到 CV 领域的挑战,多模态模型需融合生成与理解,但难度远超语言模型。
◦ 未来突破可能依赖数据清洗、算法创新(如 RNN-like 架构)及多模态协同训练 。
9.关于Agent
现在的 agent 和 openAI 提的 agent 很可能不是一件事。OpenAI 提出的智能度的五级分类法是非常有逻辑的:第一级是 chatbot,第二级是 reasoning,第三级是 agent,他们讲的 agent 和我们今天说的 agent 应用差别是挺大的。
OpenAI 五级背后的潜台词是每一级都得有一个全新的算法,比如 chatbot 的形态本质就是 next token prediction;reasoning 背后的 o 系列是 RL 思维链主导的时代,而且 RL 往后越来越会 scale up,所以 RL 主导的时代就是 reasoning。
我认为主导 Agent 的算法就是自主在线学习。因为 agent 特别强调自主性,不需要人工设计这么多环境、定义这么多规则。现在的 reasoning 系统还是一个 KPI 驱动的,第一是训练结束不能再继续提高,第二是训练过程完全依赖人工给定目标,但比 NTP 还是要好一些的,因为 NTP 不仅要人来给目标,还要让他达到这个方向的路径背下来,而现在可以做到给模型一个目标,模型自己去实现就好。自主学习是将目标放宽,模型得自己去找目标,自己来学习自己的价值,所以 OpenAI 的 agent 是能够独立工作,自我进化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/86685.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++中std::deque详解和实战工程代码示例

C中std::deque详解和实战工程代码示例 std::deque(双端队列)是 C 标准库中的一个序列容器,与 std::vector 类似,但它支持从头部和尾部高效地插入和删除元素。它底层采用分段连续空间实现,兼具灵活性与性能。 一、基本…

【AI大模型入门指南】概念与专有名词详解 (二)

【AI大模型入门指南】概念与专有名词详解 (二) 一 、前言 当你和聊天机器人聊得天花乱坠时,当你用文字让AI生成精美图片时,当手机相册自动帮你分类照片时 —— 这些看似智能的操作背后,都藏着 AI 大模型的身影。 本…

AIStor 的模型上下文协议 (MCP) 服务器:管理功能

在本系列的上一篇博文中,我们讨论了 MinIO AIStor 的模型上下文协议 (MCP) 服务器的基本用户级功能。我们学习了如何使用人类语言命令查看存储桶的内容、分析对象并标记它们以便将来处理,以及如何通过 LLM(例如 Anthropic Claude)…

期权末日轮实值期权盈利未平仓怎么办?

本文主要介绍期权末日轮实值期权盈利未平仓怎么办?期权末日轮实值期权盈利未平仓该怎么办,需要明确几个关键点:末日轮指的是期权到期日临近的时候,通常指最后一周,尤其是最后一天,这时候时间价值衰减很快&a…

C++/Qt 联合编程中的定时器使用陷阱:QObject::startTimer 报错详解

在 Qt 开发中,QTimer 是一个常用的工具类,用于处理定时事件。但不少开发者在 C/Qt 联合编程,尤其是在工具类、静态类、线程中使用定时器时,会遇到如下令人困惑的报错: QObject::startTimer: Timers can only be used …

CentOS7.9 查询运维安全日志,排查恶意用户

1、查看系统版本 cat /etc/redhat-release uname -a 2、查看所有账号 cat /etc/shadow 3、修改 root 密码 passwd 3、查看账号ID id jinzhi 4、查看登录日志 lastlog 5、查看操作日志 cat .bash_history sudo cat /home/yunwei/.bash_history sudo grep root /va…

多模态大语言模型arxiv论文略读(117)

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ➡️ 论文标题:Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ➡️ 论文作者:Ren-Di Wu, Yu-Yen L…

如何正确的配置eureka server集群

将 Eureka Server 实例的 hostname 都配置成相同的值,在 Eureka Server 集群环境下同样是不推荐且通常会导致严重问题的, 核心问题:Eureka Server 集群的工作机制 Eureka Server 集群通过相互注册(Peering)来实现高可…

AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用

查看原文>>> 从入门到精通-AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用 结合ArcGIS和GPT的优势,本文重点进行AI大模型应用、ArcGIS工作流程及功能、Prompt使用技巧、AI助力工作流程、AI助力数据读取与处理、AI助力空间分析、AI助力遥感…

vue3-ts: v-model 和 props 的关系

在 Vue.js 中,v-model 是一个语法糖,它实际上是 :value 和 input 事件的组合。 当你使用 v-model 绑定一个组件时,默认情况下,组件会通过 props 接收 value 这个 prop, 并通过触发 input 事件来更新父组件中的数据。 …

学车笔记 变挡

超15就可以加一档了 有些人对手动挡的档位有一些误解_哔哩哔哩_bilibili 献给所有新司机.开手动档摆脱顿挫的根本方法.学会看转速!没那么复杂!_哔哩哔哩_bilibili 减速到怠速降一档

STM32的DMA简介

STM32的DMA简介 一、DMA概述 DMA(Direct Memory Access,直接存储器存取)是一种硬件机制,它允许外设和存储器之间或者存储器和存储器之间进行高速数据传输,而无需CPU的干预。这种机制可以极大地节省CPU资源&#xff0c…

Spring-AOP知识点

一、AOP简介 1.AOP概念 2.AOP思想实现方案 3.AOP相关概念 二、基于xml配置AOP 1.快速入门 2.AOP配置详解 3.AOP原理剖析 三、基于注解配置AOP 1.快速入门 2.注解方式AOP配置详解 抽取切点表达式

Java@Data 与 @NotNull 注解冲突问题

第一章:核心概念解析 1. Data(Lombok 提供) 自动生成以下方法: gettersettertoString()equals()hashCode() 简化实体类编写,提高开发效率。 示例: import lombok.Data;Data public class User {private…

离线部署openstack 2024.1 glance

控制节点镜像服务 离线下载 apt install --download-only glancemkdir /controller/glance mv /var/cache/apt/archives/*.deb /controller/glance/ dpkg -i /controller/glance/*.deb在一个控制节点操作 CREATE DATABASE glance; GRANT ALL PRIVILEGES ON glance.* TO glan…

.NET AOT 详解

简介 AOT(Ahead-Of-Time Compilation)是一种将代码直接编译为机器码的技术,与传统的 JIT(Just-In-Time Compilation)编译方式形成对比。在.NET 中,AOT 编译可以在应用发布时将 IL(中间语言&…

博客系统自动化测试

基于SSM(Spring Spring MVC MyBatis)框架构建的个人博客系统,通过分层架构实现高效协作:Spring负责依赖注入与事务管理,Spring MVC处理HTTP请求分发,MyBatis完成数据持久化操作。系统包含以下核心功能模块…

animate.css详解:轻松实现网页动画效果

前言 在网页设计中,动画效果不仅仅是视觉上的装饰,更是提升用户体验的重要元素。animate.css 作为一个轻量级的 CSS 动画库,提供了丰富的预设动画效果,本文将探讨 animate.css 使用方法以及在实际项目中的应用案例,帮助…

【多智能体】基于嵌套进化算法的多代理工作流

😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体等相关领域,期待与你一同探索、学习、进步,一起卷起来叭&#xff…

电源知多少?LDO VS DCDC((下)

首先补充几个上一节没有提到的知识,我们通常说的DCDC同步整流是指什么? 同步是指采用通态电阻极低的专用功率MOS来取代整流二极管以降低整流损耗,,但是同步整流有以下两点需要注意:1、MOS在导通之后的压降比较低&…