【AI论文】GLM-4.1V-Thinking：迈向具备可扩展强化学习的通用多模态推理

摘要：我们推出GLM-4.1V-Thinking，这是一款旨在推动通用多模态推理发展的视觉语言模型（VLM）。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，该模型可视为最终性能的上限基准。随后，借助课程采样强化学习（Reinforcement Learning with Curriculum Sampling，RLCS），我们充分释放了模型的潜力，使其在包括STEM问题求解、视频理解、内容识别、编程、指代消解、基于图形用户界面（Graphical User Interface，GUI）的智能体以及长文档理解等多样化任务中实现了全面的能力提升。为促进该领域的研究，我们开源了GLM-4.1V-9B-Thinking模型，其在同等规模模型中达到了顶尖性能。在涵盖28个公开基准测试的全面评估中，我们的模型在几乎所有任务上均优于Qwen2.5-VL-7B，并且在18个基准测试上，与规模大得多的Qwen2.5-VL-72B相比，也取得了相当甚至更优的性能。值得注意的是，在长文档理解和STEM推理等具有挑战性的任务上，GLM-4.1V-9B-Thinking与GPT-4o等闭源模型相比也展现出了相当或更优的性能，进一步凸显了其强大的能力。代码、模型及更多信息已在Github。Huggingface链接：Paper page，论文链接：2507.01006

一、研究背景和目的

研究背景

随着人工智能技术的快速发展，视觉语言模型（Vision-Language Models, VLMs）已成为现代智能系统的重要组成部分。这些模型不仅能够感知和理解视觉信息，还能处理和理解文本信息，从而实现跨模态的理解和推理。然而，随着任务复杂性的增加，对VLMs的推理能力提出了更高的要求。传统的VLMs主要依赖于简单的视觉内容感知，而在处理科学问题、开发自主智能体等复杂任务时，往往显得力不从心。因此，提升VLMs的推理能力，尤其是多模态推理能力，成为当前研究的热点和难点。

近年来，长文本推理和可扩展强化学习在提升大型语言模型（Large Language Models, LLMs）解决复杂问题能力方面取得了显著进展。然而，在VLMs领域，仍缺乏一个能够持续超越传统非思考型模型的多模态推理模型。此外，开源社区也缺乏一个在广泛任务中表现优异的通用多模态推理模型。

研究目的

本研究旨在开发一个名为GLM-4.1V-Thinking的视觉语言模型，通过引入可扩展的强化学习框架，提升模型在多模态推理任务上的性能。具体目标包括：

构建强大的视觉基础模型：通过大规模预训练，开发一个具备强大潜力的视觉基础模型，为后续的强化学习提供坚实的基础。
引入课程采样强化学习（RLCS）：通过RLCS框架，充分释放模型的潜力，实现跨多模态任务的全面能力提升。
推动多模态推理研究：通过开源GLM-4.1V-9B-Thinking模型和相关资源，促进多模态推理领域的研究和发展。

二、研究方法

1. 预训练阶段

为了构建一个强大的视觉基础模型，研究团队收集并整理了多样化的多模态数据集，包括：

图像-文本对：从公开数据集和网络搜索引擎中收集了超过100亿个图像-文本对，并通过多阶段优化流程确保数据质量。
自整理学术语料库：包含图像和文本交织的数据，如网页和书籍，通过专门的处理流程提取高质量数据。
光学字符识别（OCR）数据：构建了包含2.2亿张图像的大规模预训练数据集，涵盖合成文档图像、自然场景文本图像和学术文档。
视觉定位数据：构建了包含自然图像和图形用户界面（GUI）的混合定位数据集，提升模型的视觉定位能力。

预训练阶段采用多阶段训练策略，首先进行大规模的多模态预训练，然后进行长上下文持续训练，以扩展模型处理高分辨率图像、视频和长上下文的能力。

2. 监督微调阶段

为了将基础VLM转化为具备长链思考（Chain-of-Thought, CoT）推理能力的模型，研究团队构建了专门设计的长CoT语料库。该语料库不仅涵盖可验证的领域（如STEM问题），还包括不可验证的任务（如指令跟随和开放式写作）。通过全参数微调，使模型能够进行更有效的推理。

3. 强化学习阶段

引入课程采样强化学习（RLCS）框架，通过动态选择最具信息量的滚动问题，提升训练效率和性能。RLCS框架结合课程学习和难度感知采样，根据模型的当前能力选择合适的任务和样本进行训练。此外，研究团队还设计了一个多领域奖励系统，确保在不同多模态子领域中提供准确和一致的奖励信号。

三、研究结果

1. 模型性能

GLM-4.1V-9B-Thinking在28个公开基准测试中展现了卓越的性能，几乎在所有任务上都超越了Qwen2.5-VL-7B，并在18个基准测试上与规模大得多的Qwen2.5-VL-72B相比取得了相当甚至更优的性能。特别是在长文档理解和STEM推理等具有挑战性的任务上，GLM-4.1V-9B-Thinking与GPT-4o等闭源模型相比也展现出了相当或更优的性能。

2. 跨领域泛化能力

研究结果表明，多领域强化学习展示了强大的跨领域泛化能力和相互促进作用。在一个领域上的训练能够提升模型在其他领域的性能，联合训练多个领域能够进一步提升每个领域的性能。例如，STEM、OCR&图表、视觉定位和GUI智能体等不同领域的任务在联合训练后均取得了显著提升。

3. 奖励系统的重要性

一个强大且精确的奖励系统对于多领域RL至关重要。研究团队设计的多领域奖励系统能够在不同子领域中提供准确和一致的奖励信号，确保模型在训练过程中能够稳定学习并避免奖励信号的弱点导致的训练崩溃。

四、研究局限

尽管GLM-4.1V-9B-Thinking在多模态推理任务上取得了显著进展，但研究仍存在一些局限性：

数据偏差：尽管研究团队努力确保数据的多样性和质量，但预训练数据仍可能存在一定的偏差，影响模型在某些特定任务上的性能。
计算资源需求：大规模预训练和强化学习需要大量的计算资源，限制了研究在资源有限的环境中的可重复性。
模型可解释性：尽管模型在多模态推理任务上展现了强大的性能，但其决策过程仍缺乏可解释性，限制了模型在某些需要透明度的应用场景中的使用。

五、未来研究方向

针对上述研究局限，未来的研究可以从以下几个方面展开：

数据多样性和质量提升：进一步收集和整理多样化的多模态数据，提升数据的质量和覆盖范围，减少数据偏差对模型性能的影响。
计算效率优化：探索更高效的训练算法和硬件加速技术，降低大规模预训练和强化学习的计算资源需求，提升研究的可重复性。
模型可解释性研究：开展模型可解释性研究，提升模型决策过程的透明度，使模型能够在需要透明度的应用场景中得到广泛应用。
多模态融合技术研究：进一步探索多模态融合技术，提升模型在处理复杂多模态任务时的性能和鲁棒性。
实际应用探索：将GLM-4.1V-Thinking模型应用于实际场景中，探索其在教育、医疗、娱乐等领域的应用潜力，推动多模态推理技术的实际应用和发展。

总之，GLM-4.1V-Thinking模型通过引入可扩展的强化学习框架，显著提升了视觉语言模型在多模态推理任务上的性能。未来的研究将继续优化模型性能，探索新的应用场景，推动多模态推理技术的不断进步。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/news/914322.shtml
繁体地址，请注明出处：http://hk.pswp.cn/news/914322.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！