【AI论文】GLM-4.1V-Thinking:迈向具备可扩展强化学习的通用多模态推理

摘要:我们推出GLM-4.1V-Thinking,这是一款旨在推动通用多模态推理发展的视觉语言模型(VLM)。在本报告中,我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型,该模型可视为最终性能的上限基准。随后,借助课程采样强化学习(Reinforcement Learning with Curriculum Sampling,RLCS),我们充分释放了模型的潜力,使其在包括STEM问题求解、视频理解、内容识别、编程、指代消解、基于图形用户界面(Graphical User Interface,GUI)的智能体以及长文档理解等多样化任务中实现了全面的能力提升。为促进该领域的研究,我们开源了GLM-4.1V-9B-Thinking模型,其在同等规模模型中达到了顶尖性能。在涵盖28个公开基准测试的全面评估中,我们的模型在几乎所有任务上均优于Qwen2.5-VL-7B,并且在18个基准测试上,与规模大得多的Qwen2.5-VL-72B相比,也取得了相当甚至更优的性能。值得注意的是,在长文档理解和STEM推理等具有挑战性的任务上,GLM-4.1V-9B-Thinking与GPT-4o等闭源模型相比也展现出了相当或更优的性能,进一步凸显了其强大的能力。代码、模型及更多信息已在Github。Huggingface链接:Paper page,论文链接:2507.01006

一、研究背景和目的

研究背景

随着人工智能技术的快速发展,视觉语言模型(Vision-Language Models, VLMs)已成为现代智能系统的重要组成部分。这些模型不仅能够感知和理解视觉信息,还能处理和理解文本信息,从而实现跨模态的理解和推理。然而,随着任务复杂性的增加,对VLMs的推理能力提出了更高的要求。传统的VLMs主要依赖于简单的视觉内容感知,而在处理科学问题、开发自主智能体等复杂任务时,往往显得力不从心。因此,提升VLMs的推理能力,尤其是多模态推理能力,成为当前研究的热点和难点。

近年来,长文本推理和可扩展强化学习在提升大型语言模型(Large Language Models, LLMs)解决复杂问题能力方面取得了显著进展。然而,在VLMs领域,仍缺乏一个能够持续超越传统非思考型模型的多模态推理模型。此外,开源社区也缺乏一个在广泛任务中表现优异的通用多模态推理模型。

研究目的

本研究旨在开发一个名为GLM-4.1V-Thinking的视觉语言模型,通过引入可扩展的强化学习框架,提升模型在多模态推理任务上的性能。具体目标包括:

  1. 构建强大的视觉基础模型:通过大规模预训练,开发一个具备强大潜力的视觉基础模型,为后续的强化学习提供坚实的基础。
  2. 引入课程采样强化学习(RLCS):通过RLCS框架,充分释放模型的潜力,实现跨多模态任务的全面能力提升。
  3. 推动多模态推理研究:通过开源GLM-4.1V-9B-Thinking模型和相关资源,促进多模态推理领域的研究和发展。

二、研究方法

1. 预训练阶段

为了构建一个强大的视觉基础模型,研究团队收集并整理了多样化的多模态数据集,包括:

  • 图像-文本对:从公开数据集和网络搜索引擎中收集了超过100亿个图像-文本对,并通过多阶段优化流程确保数据质量。
  • 自整理学术语料库:包含图像和文本交织的数据,如网页和书籍,通过专门的处理流程提取高质量数据。
  • 光学字符识别(OCR)数据:构建了包含2.2亿张图像的大规模预训练数据集,涵盖合成文档图像、自然场景文本图像和学术文档。
  • 视觉定位数据:构建了包含自然图像和图形用户界面(GUI)的混合定位数据集,提升模型的视觉定位能力。

预训练阶段采用多阶段训练策略,首先进行大规模的多模态预训练,然后进行长上下文持续训练,以扩展模型处理高分辨率图像、视频和长上下文的能力。

2. 监督微调阶段

为了将基础VLM转化为具备长链思考(Chain-of-Thought, CoT)推理能力的模型,研究团队构建了专门设计的长CoT语料库。该语料库不仅涵盖可验证的领域(如STEM问题),还包括不可验证的任务(如指令跟随和开放式写作)。通过全参数微调,使模型能够进行更有效的推理。

3. 强化学习阶段

引入课程采样强化学习(RLCS)框架,通过动态选择最具信息量的滚动问题,提升训练效率和性能。RLCS框架结合课程学习和难度感知采样,根据模型的当前能力选择合适的任务和样本进行训练。此外,研究团队还设计了一个多领域奖励系统,确保在不同多模态子领域中提供准确和一致的奖励信号。

三、研究结果

1. 模型性能

GLM-4.1V-9B-Thinking在28个公开基准测试中展现了卓越的性能,几乎在所有任务上都超越了Qwen2.5-VL-7B,并在18个基准测试上与规模大得多的Qwen2.5-VL-72B相比取得了相当甚至更优的性能。特别是在长文档理解和STEM推理等具有挑战性的任务上,GLM-4.1V-9B-Thinking与GPT-4o等闭源模型相比也展现出了相当或更优的性能。

2. 跨领域泛化能力

研究结果表明,多领域强化学习展示了强大的跨领域泛化能力和相互促进作用。在一个领域上的训练能够提升模型在其他领域的性能,联合训练多个领域能够进一步提升每个领域的性能。例如,STEM、OCR&图表、视觉定位和GUI智能体等不同领域的任务在联合训练后均取得了显著提升。

3. 奖励系统的重要性

一个强大且精确的奖励系统对于多领域RL至关重要。研究团队设计的多领域奖励系统能够在不同子领域中提供准确和一致的奖励信号,确保模型在训练过程中能够稳定学习并避免奖励信号的弱点导致的训练崩溃。

四、研究局限

尽管GLM-4.1V-9B-Thinking在多模态推理任务上取得了显著进展,但研究仍存在一些局限性:

  1. 数据偏差:尽管研究团队努力确保数据的多样性和质量,但预训练数据仍可能存在一定的偏差,影响模型在某些特定任务上的性能。
  2. 计算资源需求:大规模预训练和强化学习需要大量的计算资源,限制了研究在资源有限的环境中的可重复性。
  3. 模型可解释性:尽管模型在多模态推理任务上展现了强大的性能,但其决策过程仍缺乏可解释性,限制了模型在某些需要透明度的应用场景中的使用。

五、未来研究方向

针对上述研究局限,未来的研究可以从以下几个方面展开:

  1. 数据多样性和质量提升:进一步收集和整理多样化的多模态数据,提升数据的质量和覆盖范围,减少数据偏差对模型性能的影响。
  2. 计算效率优化:探索更高效的训练算法和硬件加速技术,降低大规模预训练和强化学习的计算资源需求,提升研究的可重复性。
  3. 模型可解释性研究:开展模型可解释性研究,提升模型决策过程的透明度,使模型能够在需要透明度的应用场景中得到广泛应用。
  4. 多模态融合技术研究:进一步探索多模态融合技术,提升模型在处理复杂多模态任务时的性能和鲁棒性。
  5. 实际应用探索:将GLM-4.1V-Thinking模型应用于实际场景中,探索其在教育、医疗、娱乐等领域的应用潜力,推动多模态推理技术的实际应用和发展。

总之,GLM-4.1V-Thinking模型通过引入可扩展的强化学习框架,显著提升了视觉语言模型在多模态推理任务上的性能。未来的研究将继续优化模型性能,探索新的应用场景,推动多模态推理技术的不断进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/914322.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/914322.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux进程通信——匿名管道

目录 1、进程间通信基础概念 2、管道的工作原理 2.1 什么是管道文件 3、匿名管道的创建与使用 3.1、pipe 系统调用 3.2 父进程调用 fork() 创建子进程 3.3. 父子进程的文件描述符共享 3.4. 关闭不必要的文件描述符 3.5 父子进程通过管道进行通信 父子进程通信的具体例…

sql:sql在office中的应用有哪些?

在Office软件套件中,主要是Access和Excel会用到SQL(结构化查询语言),以下是它们在这两款软件中的具体应用: 在Access中的应用 创建和管理数据库对象: 创建表:使用CREATE TABLE语句可以创建新的数…

零基础完全理解视觉语言模型(VLM):从理论到代码实践

本文是《从LLM到VLM:视觉语言模型的核心技术与Python实现》的姊妹篇,主要面向零基础的读者,希望用更通俗易懂的语言带领大家入门VLM。本教程的完整代码可以在GitHub上找到,如果你有任何问题或建议,欢迎交流讨论。 写在…

数据结构 Map和Set

文章目录📕1. 二叉搜索树✏️1.1 查找操作✏️1.2 插入操作✏️1.3 删除操作📕2. Map的使用✏️2.1 Map的常用方法✏️2.2 TreeMap和HashMap的区别✏️2.3 HashMap的底层实现📕3. Set的使用✏️3.1 Set的常用方法✏️3.2 TreeSet和HashSet的区…

树莓派5-系统 Debian 12 开启VNC远程访问踩坑记录

简单记录一下踩坑,安装vnc远程访问服务并设置开机自启1.查看系统版本,我这里的系统版本是 12cat /etc/os-release2.安装VNC服务sudo apt install realvnc-vnc-server realvnc-vnc-viewer -y3.创建服务单元文件:sudo nano /etc/systemd/system…

TASK2 夏令营:用AI做带货视频评论分析

TASK2 夏令营:用AI做带货视频评论分析**电商评论洞察赛题:从Baseline到LLM进阶优化学习笔记**一、 赛题核心解读1.1. 任务链条与目标1.2. 关键挑战与评分机制二、 Baseline方案回顾与瓶颈分析2.1. Baseline技术栈2.2. 核心瓶颈三、 进阶优化策略&#xf…

Docker:安装命令笔记

目录 零、安装:略 一、镜像 1.0、获取镜像: 1.1、查看镜像: 1.2、删除镜像: 二、容器 2.0、创建并启动容器 2.1、tomcat和jdk9的“创建并启动容器”的命令 2.2、容器操作 2.3、容器日志操作 零、安装:略 略 …

Python七彩花朵

系列文章 序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Pytho…

【保姆级图文详解】MCP架构(客户端-服务端)、三种方式使用MCP服务、Spring AI MCP客户端和服务端开发、MCP部署方案、MCP安全性

文章目录前言一、MCP(model context protocol)1.1、概念描述1.2、MCP作用与意义1.3、MCP架构二、使用MCP(model context protocol)2.1、云平台使用MCP2.2、软件客户端使用MCP2.3、Spring AI程序中使用MCP三、Spring AI MCP(model context protocol)开发过程3.1、MCP服务端开发3…

Linux的 iproute2 配置:以太网(Ethernet)、绑定(Bond)、虚拟局域网(VLAN)、网桥(Bridge)笔记250713

Linux的 iproute2 配置:以太网(Ethernet)、绑定(Bond)、虚拟局域网(VLAN)、网桥(Bridge)笔记250713 在 Linux 中使用 iproute2 工具集配置网络是现代且推荐的方法,它取代了旧的 ifconfig、route、brctl、vconfig 等命令。iproute2 提供了统一的接口 ip …

当信任上链解码区块链溯源系统开发逻辑与产业变革

当信任上链:解码区块链溯源系统的开发逻辑与产业变革在上海某高端超市的进口水果区,消费者王女士拿起一盒车厘子,用手机扫描包装上的二维码,屏幕立刻弹出一串动态信息:智利瓦尔帕莱索港口的装船时间、海关清关的具体日…

可视化DIY小程序工具!开源拖拽式源码系统,自由搭建,完整的源代码包分享

温馨提示:文末有资源获取方式传统的小程序开发对技术要求较高,这使得许多非技术人员望而却步。可视化DIY小程序工具应运而生,它通过拖拽式操作和开源代码系统,极大地降低了开发门槛,让更多人能够快速构建个性化小程序。…

【MLLM】多模态理解GLM-4.1V-Thinking模型

note GLM-4.1V-Thinking模型引入 课程采样强化学习(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多个复杂推理任务中实现能力突破,整体性能达到 10B 级别视觉语言模型的领先水平。GLM-4.1V-9B-Thinking 通过…

【C++详解】STL-priority_queue使用与模拟实现,仿函数详解

文章目录一、priority_queue使用仿函数控制优先级sort算法里的仿函数二、手撕优先级队列优先级队列的容器适配器入堆出堆top/size/empty迭代器区间构造初始化(解耦)三、仿函数仿函数控制冒泡排序仿函数控制priority_queue比较逻辑仿函数使用场景仿函数的其他使用场景源码一、pr…

在mac m1基于ollama运行deepseek r1

1 下载和安装 在ollama的官网下载mac m1版本的ollama https://ollama.com/ 最终获得如下所示的下载地址 https://github.com/ollama/ollama/releases/latest/download/Ollama.dmg 然后点击安装,然后测试 ollama list 2 运行deepseek r1 deepseek-r1:8b 比较适…

TCP与UDP协议详解:网络世界的可靠信使与高速快递

> 互联网的骨架由传输层协议支撑,而TCP与UDP如同血管中的红细胞与血小板,各司其职却又缺一不可 ### 一、初识传输层双雄:网络通信的基石 想象你要给朋友寄送重要文件: - **TCP** 如同顺丰快递:**签收确认+物流追踪**,确保文件完整送达 - **UDP** 如同普通信件:**直接…

Datawhale AI 夏令营【更新中】

Datawhale AI 夏令营【更新中】夏令营简介大模型技术(文本)方向:用AI做带货视频评论分析机器学习(数据挖掘)方向:用AI预测新增用户夏令营简介 本次AI夏令营是Datawhale在暑期发起的大规模AI学习活动&#…

AutoDL挂载阿里云OSS

文章目录前言AutoDL 设置阿里OSS设置OSS配置相关key 相关竞猜时间前言 最近,AutoDL提示北京A区网盘功能要下架,然后需要对网盘中数据进行转移等操作,我想网盘中数据下载到本地,大概16G;直接在网盘那里下载&#xff0c…

java 基本数据类型所对应的包装类

一,对应列举Java 中有 8 种基本数据类型,每种基本数据类型都有对应的包装类,它们分别是:二,包装类的作用1. 满足面向对象编程需求Java 是面向对象的编程语言,基本数据类型不是对象,无法使用面向对象的特性(…

牛客网50题-10

1.小苯的数字权值#include <iostream> #include <algorithm> using namespace std;const int max_n 2000000; int d[max_n 1]; int f[max_n 1];int main() {for(int i 1; i<max_n;i){for(int j i; j<max_n;ji){d[j];}}for(int i1; i<max_n;i){f[i] d…