字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!

字节推出的 BAGEL 是一个开源的统一多模态模型,他们直接开源了GPT-4o级别的图像生成能力。(轻松拿捏“万物皆可吉卜力”玩法~)。可以在任何地方对其进行微调、提炼和部署,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。

效果展示

聊天

BAGEL 是一个统一的生成和理解模型,它基于大型语言模型进行初始化预训练,从而为其提供了推理和对话的基础能力。BAGEL 可以处理图像和文本的混合格式输入和输出。

生成效果

BAGEL 已基于大规模交错视频和网页数据进行预训练,使其能够生成高保真、逼真的图像、视频帧或交错的图文内容。交错数据经过适当的对齐,能够构建自然的多模态思维链,使模型能够生成视觉输出。

编辑

通过对交错视频片段进行预训练,BAGEL 能够自然地学习保留视觉特征和精细细节,同时还能捕捉视频中复杂的视觉运动,从而高效地进行图像编辑。凭借源自视觉语言模型的强大推理能力,BAGEL 的智能编辑能力轻松超越了基础编辑任务。

风格转换

凭借对视觉内容和风格的深刻理解,BAGEL 可以轻松地将图像从一种风格转换为另一种风格,甚至可以将其转换为完全不同的风格,只需使用最少的对齐数据即可。

作品

BAGEL 从视频、网络和语言数据中学习广泛的知识和能力,使其能够进行推理、建模物理动态、预测未来帧等等——所有这些都通过统一的多模态界面实现。凭借其组合能力,BAGEL 可以无缝地进行多轮对话。

相关链接

  • 主页:https://bagel-ai.org/

  • 论文:https://arxiv.org/abs/2505.14683

  • 模型:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

方法

BAGEL 采用混合 Transformer-专家 (MoT) 架构,以最大限度地提升模型从丰富多样的多模态信息中学习的能力。遵循同样的容量最大化原则,它利用两个独立的编码器来捕捉图像的像素级和语义级特征。整体框架遵循“下一组标记预测”范式,其中模型被训练为预测下一组语言或视觉标记作为压缩目标。

BAGEL 通过对涵盖语言、图像、视频和网络数据的数万亿个交错多模态标记进行预训练、持续训练和监督微调来扩展 MoT 的容量。它在标准理解和生成基准上超越了开放模型,并展示了先进的上下文多模态能力,例如自由格式图像编辑、未来帧预测、3D 操作、世界导航和序列推理。

随着我们扩展 BAGEL 的预训练,添加更多多模态标记,我们观察到理解、生成和编辑任务的性能持续提升。不同的能力在不同的训练阶段显现——多模态理解和生成能力出现较早,随后是基础编辑能力,而复杂的智能编辑能力则在后期显现。这种阶段性进展表明了一种新兴模式,即高级多模态推理建立在完善的基础技能之上。消融研究进一步表明,将 VAE 与 ViT 特征相结合可以显著提升智能编辑能力,这凸显了视觉语义语境在实现复杂多模态推理方面的重要性,并进一步支持了其在高级能力涌现中的作用。

基准

理解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

互联网大厂Java面试:从Spring Cloud到Kafka的技术考察

场景:互联网大厂Java求职者面试 面试官与谢飞机的对话 面试官:我们先从基础开始,谢飞机,你能简单介绍一下Java SE和Java EE的区别吗? 谢飞机:哦,这个简单。Java SE是标准版,适合桌…

18-Oracle 23ai JSON二元性颠覆传统

在当今百花齐放的多模型数据库时代,开发人员常在关系型与文档型数据库间艰难取舍。Oracle Database 23ai推出的JSON关系二元性(JSON Relational Duality)​​ 和二元性视图(Duality Views)​​ 创新性地统一了两者优势…

蓝桥杯 冶炼金属

原题目链接 🔧 冶炼金属转换率推测题解 📜 原题描述 小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V,是一个正整数,表示每 V V V 个普通金属 O O O 可以冶炼出 …

DreamO字节开源图像编辑框架

DreamO是由字节跳动联合北京大学深圳研究生院电子与计算机工程学院共同研发的统一图像定制生成框架,支持多样化的编辑任务。 看下介绍的核心功能,还是很厉害的,今天咱们来体验下。 有正常本地部署版的。 https://github.com/bytedance/Drea…

EM储能网关ZWS智慧储能云应用(11) — 一级架构主从架构

ZWS智慧储能云针对储能场景下不同的架构体系进行了兼容,可以适配用户面临的复杂现场环境,满足更深层次的管理和维护需求。 简介 储能系统包含PCS、BMS、EMS等多个组件,不同储能架构管理和决策方式也有不同。为了适配用户面临的复杂现场环境&…

从0开始一篇文章学习Nginx

Nginx服务 HTTP介绍 ## HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 ## HTTP工作在 TCP/IP协议体系中的TCP协议上&#…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

Python SQLModel 简介

销量过万TEEIS德国护膝夏天用薄款 优惠券冠生园 百花蜂蜜428g 挤压瓶纯蜂蜜巨奇严选 鞋子除臭剂360ml 多芬身体磨砂膏280g健70%-75%酒精消毒棉片湿巾1418cm 80片/袋3袋大包清洁食品用消毒 优惠券AIMORNY52朵红玫瑰永生香皂花同城配送非鲜花七夕情人节生日礼物送女友 热卖妙洁棉…

【Post-process】【VBA】ETABS VBA FrameObj.GetNameList and write to EXCEL

ETABS API实战:导出框架元素数据到Excel 在结构工程师的日常工作中,经常需要从ETABS模型中提取框架元素信息进行后续分析。手动复制粘贴不仅耗时,还容易出错。今天我们来用简单的VBA代码实现自动化导出。 🎯 我们要实现什么? 一键点击,就能将ETABS中所有框架元素的基…

springboot根据部署服务器生成机器码+加密生成到期时间授权码设置项目在服务器的到期时间

生成机器码 首先需要在后端写个获取window或linux的机器码&#xff0c;根据CPU序列号和硬盘序列号(Windows)&#xff0c;拼接得到 /*** 操作系统的工具类*/ public class OSUtils {/*** 获取window or linux机器码** return*/public static String getOSNumber() {Map<Str…

Thumb-2指令集及其与STM32的关系

Thumb-2指令集及其与STM32的关系&#xff1a; 1. Thumb-2指令集是什么&#xff1f; 本质&#xff1a;Thumb-2是ARM公司设计的混合指令集架构&#xff0c;首次在ARMv7架构中引入&#xff08;如Cortex-M3/M4/M7&#xff09;。 核心创新&#xff1a; 融合了传统 32位ARM指令&…

Haption 力反馈遥操作机器人:6 自由度 + 低延迟响应,解锁精准远程操控体验

Haption自2001年成立以来&#xff0c;始终专注于力反馈设备与定制化解决方案的设计、研发及销售。作为工业级力反馈技术的先行者&#xff0c;其核心产品以高精度交互与可靠性著称&#xff0c;已与达索系统、空客、Orano 等行业头部企业达成深度合作&#xff0c;业务覆盖工程仿真…

C# ExcelWorksheet 贴图

C# ExcelWorksheet 贴图 在C#中,如果你想在Excel工作表中插入图片(例如,在ExcelWorksheet中贴图),你可以使用ClosedXML或EPPlus这样的库来操作Excel文件。下面我将分别介绍如何使用这两个库来实现这一功能。 使用ClosedXML 首先,确保你已经安装了ClosedXML包。你可以通…

Android15默认授权浮窗权限

我们经常有那种需求&#xff0c;客户需要定制的apk集成在ROM中&#xff0c;并且默认授予其【显示在其他应用的上层】权限&#xff0c;也就是我们常说的浮窗权限&#xff0c;那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…

莫兰迪高级灰总结计划简约商务通用PPT模版

莫兰迪高级灰总结计划简约商务通用PPT模版&#xff0c;莫兰迪调色板清新简约工作汇报PPT模版&#xff0c;莫兰迪时尚风极简设计PPT模版&#xff0c;大学生毕业论文答辩PPT模版&#xff0c;莫兰迪配色总结计划简约商务通用PPT模版&#xff0c;莫兰迪商务汇报PPT模版&#xff0c;…

无人机EN 18031欧盟网络安全认证详细解读

EN 18031 是欧盟针对无线电设备发布的网络安全标准&#xff0c;于 2024 年 8 月正式发布&#xff0c;2025 年 1 月 30 日被列入《无线电设备指令》&#xff08;RED&#xff09;协调标准清单&#xff0c;并于 2025 年 8 月 1 日起强制执行。以下是对无人机 EN 18031 欧盟网络安全…

Linux离线(zip方式)安装docker

目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1&#xff1a;修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本&#xff1a;CentOS 7 64位 内核版本&#xff1a;3.10.0 相关命令&#xff1a; uname -rcat /etc/os-rele…

Go 语言中switch case条件分支语句

1. 基本语法 package main import "fmt" func main() {var extname ".css"switch extname {case ".html":fmt.Println("text/html")case ".css":fmt.Println("text/css") // text/csscase ".js":fmt.…

FFmpeg:Windows系统小白安装及其使用

一、安装 1.访问官网 Download FFmpeg 2.点击版本目录 3.选择版本点击安装 注意这里选择的是【release buids】&#xff0c;注意左上角标题 例如我安装在目录 F:\FFmpeg 4.解压 5.添加环境变量 把你解压后的bin目录&#xff08;即exe所在文件夹&#xff09;加入系统变量…

LLM基础2_语言模型如何文本编码

基于GitHub项目&#xff1a;https://github.com/datawhalechina/llms-from-scratch-cn 字节对编码(BPE) 上一篇博文说到 为什么GPT模型不需要[PAD]和[UNK]&#xff1f; GPT使用更先进的字节对编码(BPE)&#xff0c;总能将词语拆分成已知子词 为什么需要BPE&#xff1f; 简…