论文阅读笔记——Emerging Properties in Unified Multimodal Pretraining

BAGEL 论文
商业闭源系统与学术/开源模型的差距很大,BAGEL 旨在通过开源统一架构+大规模交错数据主要解决:

  1. 架构割裂:理解/生成分属两条网络,信息被压缩在少量条件 token 中,长上下文推理受限。
  2. 数据贫乏:主要依赖静态图文对,缺乏真实世界的时序、物理与因果信号。
  3. 能力天花板:在复杂任务(自由图像操控、未来帧预测、世界导航)上与闭源模型存在数量级差距。

随着交织多模态预训练规模扩大,基础多模态理解与高保真生成能力最先收敛;随后涌现复杂编辑与自由视觉操控能力;最终长上下文推理开始赋能多模态理解与生成,表明原本独立的原子技能协同形成了跨模态的组合推理能力。
当前主流架构有三种:

  • 自回归视觉生成:使用离散视觉 tokenizer(如 VQGAN)将图像编码为 tokens,通过自回归 Transformer 直接预测下一 token(文本 / 视觉统一建模)。代表模型如 Janus、Chameleon 等。优势是架构简单,可复用现有 LLM 基建,易于实现端到端训练。但生成质量受限,视觉生成效果显著低于扩散模型(如 SDXL),因自回归的顺序生成难以建模复杂像素依赖;并且推理效率低,逐 token 生成导致长序列推理延迟高(如生成 1024x1024 图像需数千步)。
  • 外接生成模型:使用 LLM 甚至 VLM 作为 backbone,生成语义 condition,通过轻量级 Adapter 连接预训练扩散模型,其基于语义 condition 生成图像。代表模型如 DreamLLM、SEED-X、MetaQuery、BLIP3-o等。优势是可复用预训练权重,收敛迅速;且受益于扩散模型的高保真图像合成能力,生成质量高。但存在语义瓶颈,LLM 需将长上下文压缩为少量 latent tokens(如 64x64 特征图),导致细节丢失,尤其在长序列推理中表现不佳;且跨模态交互弱,理解与生成模块通过Adapter间接连接,难以实现深度语义对齐。
  • 统一集成 Transformer:将 LLM 与扩散模型统一在单个 Transformer 架构中,共享自注意力层,支持端到端跨模态推理。代表模型如Transfusion、JanusFlow等。优势是无交互瓶颈,文本、图像、视频 tokens 在同一 Transformer 层中直接交互,避免信息压缩;且可扩展性强,支持大规模交错数据训练,兼容长上下文和复杂任务;最重要的是通过共享参数,理解与生成能力可协同优化,促进复杂推理能力的涌现。但存在的挑战很明显,训练成本高,需同时优化语言建模与扩散生成,计算资源需求显著高于前两类方案。

字节这篇工作核心是通过交错多模态数据(包括图像、视频、导航等多种信息),结合更多场景的导航数据,把多模态信息直接作为模型输入,而不是像以前那样把视觉等信息仅作为文字条件或辅助提示。模型内部通过分离的FFN和KV机制设计,保证不同模态数据既能保持各自特征,又能互相影响和融合,增强了跨模态的深度理解和推理能力。底层模型基于Qwen2.5做调整和优化,使得这套架构能很好支持论文里提到的图像理解、视频处理、导航等复杂任务,实现更强的多模态交互和应用。
这样,模型不再是单向地用文字去“控制”图像信息,而是多模态数据间双向、甚至多向地相互作用。

在这里插入图片描述

在训练过程中,构建了三种视觉表征:噪声化 VAE 表征(用于 Rectified-Flow)、纯净 VAE 表征(作为图像/文本 token 生成的条件输入)、ViT 视觉表征(统一不同模态数据输入规范)——区分扩散与自回归生成。使用了广义因果注意力,采用 Pytorch FlexAttention,KV 缓存规则——仅存储纯净的 VAE 表征和 ViT 视觉表征(噪声 VAE 是前向扩散阶段的噪声预测,仅用于 MSE);图像生成完成后,上下文的含噪 VAE 标记被替换为纯净版。采用 Classifier-Free Guidance,对文本采用 10% 的 dropout,ViT 采用 50% 的 dropout,纯净 VAE 采用 10% 的 dropout。
理解专家(处理Text / ViT tokens)与生成专家(处理 VAE tokens)共享自注意力层,实现语义信息的无损传递(如下图所示,MoT 架构的 MSE 损失收敛更快,CE Loss也稳定更低)。
在这里插入图片描述
覆盖文本、图像、视频、网页四大模态,总量达数万亿token

  • 视频-文本交错数据:来自公开视频库(如 YouTube 教育视频、科普短片)+ 开源数据集 Koala36M(含交互场景)、MVImgNet2.0(多视角物体数据)。
  • 网页-文本交错数据:来自OmniCorpus 网页数据集(含教程、百科、设计文档)+ 结构化编辑数据集(如 OmniEdit、UltraEdit)。
  • 以及推理以增强数据:包括文生图、自由图像操控和智能编辑,使用开源VLM/LLM辅助构建推理过程。
    训练时采用四阶段渐进训练
  1. 对齐阶段:仅训练视觉 - 语言连接器,对齐 ViT 与语言模型。
  2. 预训练阶段:全模型训练,以图像 - 文本对为主(占比 60%),初步掌握基础生成。
  3. 持续训练阶段:提升视频 / 网页数据比例(各占 15%),增加分辨率至 1024x1024,强化长上下文推理。
  4. 监督微调阶段:精选高质量指令数据,优化多轮对话与复杂编辑。

实验

在这里插入图片描述

在 MMMU 和 MM-Vet 基准测试中,BAGEL显著超越开源统一模型Janus-Pro,提升了 14.3 分和 17.1 分。与 Qwen2.5-VL 和 InternVL2.5 等专用理解模型相比,BAGEL 在大多数这些基准测试中表现出更优越的性能,这表明我们的 MoT 设计在保持强大视觉理解能力的同时,有效缓解了任务冲突。
在这里插入图片描述
采用GenEval评测物体对齐与属性生成能力,采用WISE评测世界知识推理能力,从上表定量结果可以发现:在GenEval上BAGEL取得88% 总分,超越 SD3-Medium(74%)、Janus-Pro(80%),接近 FLUX.1-dev(82%)。在WISE上,BAGEL取得52% 原始得分,启用 “CoT” 后提升至 70%,比未使用 CoT 的版本高出 0.18,且显著超越了所有现有开源模型(之前的最佳成绩为 MetaQuery-XL 的 0.55),逼近 GPT-4o(80%)。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/82317.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go 语言基础1 Slice,map,string

更多个人笔记见: github个人笔记仓库 gitee 个人笔记仓库 个人学习,学习过程中还会不断补充~ (后续会更新在github上) 文章目录 stirng 字符串区分 rune,byte,string字符串操作strings 库相关 f…

C# AI(Trae工具+claude3.5-sonnet) 写前后端

这是一个AI 写的前后端分离项目,通过AI编程,开发电商管理系统(登陆、注册) 使用的AI工具为 Trae工具(字节国际版)claude3.5-sonnet(目前代码最强模型) 前端为 vue3Bootstrap 后端为 C# net5.0(因为我电脑里面已经安装了这个新版更好) do…

10G/25G PCS only mode for CoaXPress Over Fiber

背景 在CoaXPress Over Fiber的需求中, 需要利用XGMII的PCS 实现25G 数据速率的稳定传输,也就是不需要其MAC层,只保留PMA PCS层,借用其物理端口 线缆,实现其它协议的数据传输。 25G PCS 25GMII 的 TX/RX 时钟频率在 DDR&#xff…

掌握聚合函数:COUNT,MAX,MIN,SUM,AVG,GROUP BY和HAVING子句的用法,Where和HAVING的区别

对于Java后端开发来说,必须要掌握常用的聚合函数:COUNT,MAX,MIN,SUM,AVG,掌握GROUP BY和HAVING子句的用法,掌握Where和HAVING的区别: ✅ 一、常用聚合函数(聚…

无人机飞行间隔安全智能评估、安全风险评估

无人机空中安全飞行评估需结合改进碰撞模型、蒙特卡洛仿真、安全间隔反推及动态避障策略,通过多机型分类与实时数据融合,实现从理论建模到实际部署的全流程管控,为城市低空密集飞行提供安全保障。 需求 无人机飞行间隔安全智能评估 无人机…

pdf图片导出(Visio和Origin)

一、Visio 导入pdf格式图片 1. 设计->大小,适应绘图。 2. 文件->导出,导出为pdf格式。 上面两部即可得到只包含图的部分的pdf格式。 如果出现的有默认白边,可以通过以下方式设置: 1. 文件->选项->自定义功能区->…

实现一个带有授权码和使用时间限制的Spring Boot项目

生成和验证授权码记录授权时间和过期时间实现授权逻辑 以下是具体的实现方法: 1. 生成和验证授权码 可以使用加密技术生成和验证授权码。授权码中可以包含有效期等信息,并使用密钥进行签名。 示例代码: java复制代码 import javax.crypt…

官方SDK停更后的选择:开源维护的Bugly Unity SDK

腾讯Bugly,为移动开发者提供专业的异常上报和运营统计,帮助开发者快速发现并解决异常,同时掌握产品运营动态,及时跟进用户反馈。 但是,免费版的Unity SDK已经很久不更新了,会有一些问题和特性缺失&#xff…

Spring Boot分页查询进阶:整合Spring Data REST实现高效数据导航

目录: 引言分页查询基础回顾 2.1 Spring Data JPA分页接口 2.2 Pageable与Page的使用 2.3 常见分页参数设计Spring Data REST简介 3.1 HATEOAS与超媒体驱动API 3.2 Spring Data REST核心功能 3.3 自动暴露Repository接口整合Spring Boot与Spring Data REST 4.1 项目…

[Datagear] [SQL]实现分组统计同时带汇总行的两种方式对比分析

在进行数据可视化开发时,我们经常会遇到用户提出的需求:除了展示按某字段分组统计的数据外,还希望看到一个“整体总计”的数据行。这种汇总行在报表、图表展示中极为常见,可以帮助用户快速理解全局数据水平。 实现这一功能的方法主要有两种:一种是使用 SQL 的 GROUP BY ..…

Docker常用命令介绍

Docker常用命令 1、本地镜像管理 save 命令 将一个或多个 Docker 镜像保存到一个 tar 归档文件中,以便在其他环境中分发或备份。 # 语法:docker save [OPTIONS] IMAGE [IMAGE...]# 保存单个镜像到文件 docker save -o myimage.tar myimage:latest# 保…

09 接口自动化-用例管理框架pytest之allure报告定制以及数据驱动

文章目录 一、企业级的Allure报告的定制左边的定制:右边的定制:1.用例的严重程度/优先级2.用例描述3.测试用例连接的定制4.测试用例步骤的定制5.附件的定制 二、企业中真实的定制有哪些?三、allure报告如何在本地访问四、allure中的数据驱动装…

DDoS防护实战——从基础配置到高防IP部署

一、基础防护:服务器与网络层加固 Linux内核优化: 调整TCP协议栈参数,缓解SYN Flood攻击: # 启用SYN Cookie并减少超时时间 echo 1 > /proc/sys/net/ipv4/tcp_syncookies echo 30 > /proc/sys/net/ipv4/tcp_fin_timeout…

华为云Flexus+DeepSeek征文|Flexus云服务器Dify-LLM资源部署极致体验Agent

前引:重磅来袭!本次以DeepSeek-V3/R1商用大模型和Dify-LLM应用平台一键部署为核心,专为新手打造“开箱即用”的AI开发体验。无论你是想快速搭建企业级AI应用,还是探索大模型落地的无限可能,只需跟随小编实现三步走&…

SQLAlchemy 2.0 查询使用指南

SQLAlchemy 2.0 查询使用指南 1. 环境设置 首先,需要安装 SQLAlchemy 2.0 版本。假设你使用的是 SQLite 数据库,可以通过以下命令安装 SQLAlchemy: pip install sqlalchemy接着,我们创建数据库连接并初始化会话: f…

Windows 使用 WSL 安装 Ubuntu

一,前言 Windows 上轻松跑 Linux 又不想用笨重的VMware 和VirtualBox ,怎么办? 开源项目 Windows Subsystem for Linux (WSL)。它解决了许多开发者在 Windows 和 Linux 间切换的痛点,实现在 Windows 上无缝跑 Linux 工具和命令。…

[Excel VBA]如何製作買三送一優惠條件的POS結帳介面?

Excel I VBA I 買三送一優惠條件的POS結帳機 因應商品特賣活動,結帳介面需整合特定優惠條件,如買三送一,買五送二等等優惠條件。本文封面影片以買三送一為範例,並搭配VBA和對應按鈕,而實現銷售訂單紀錄和即時更新庫存等…

3d世界坐标系转屏幕坐标系

世界坐标 ——> NDC标准设备坐标 ——> 屏幕坐标 标准设备NDC坐标系 屏幕坐标系 .project方法将 将向量(坐标)从世界空间投影到相机的标准化设备坐标 (NDC) 空间。 手动实现HTML元素定位到模型位置,实现模型标签效果(和css2Render原理同理&#…

Idea出现 100% classes 等

总是误点出来,每次又忘了怎么消除,在这里记录一下。 出现这样: 操作idea界面的:点击View->Tool Windows ->Coverage,然后关掉

从零开始学习QT——第一步

一、Qt 1.1、Qt是什么 Qt是一个跨平台的C图形用户界面应用程序框架。它为应用程序开发者提供建立图形界面所需的所有功能。它是完全面向对象的,很容易扩展,并且允许真正的组件编程。 1.2、Qt的发展历程 1991年 Qt最早由芬兰奇趣科技开发 1996年 进入商业…