【AI论文】PixNerd:像素神经场扩散

摘要:扩散变换器目前所取得的成功在很大程度上依赖于预训练变分自编码器(VAE)所塑造的压缩潜在空间。然而,这种两阶段训练模式不可避免地会引入累积误差和解码伪影。为解决上述问题,研究人员选择回归像素空间,但这需要付出构建复杂级联流水线和增加令牌复杂度的代价。与他们的努力不同,我们提出利用神经场对分块解码进行建模,并给出了一种单尺度、单阶段、高效且端到端的解决方案,称之为像素神经场扩散(PixelNerd)。得益于PixNerd中高效的神经场表示,我们在无需任何复杂级联流水线或VAE的情况下,直接在256×256分辨率的ImageNet数据集上实现了2.15的FID分数,在512×512分辨率的ImageNet数据集上实现了2.84的FID分数。此外,我们还将PixNerd框架拓展到了文本生成图像的应用领域。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的综合得分,在DPG基准测试中取得了80.9的综合得分,表现极具竞争力。Huggingface链接:Paper page,论文链接:2507.23268

研究背景和目的

研究背景
近年来,扩散模型(Diffusion Models)在图像生成领域取得了显著进展,尤其是基于潜在空间的扩散变换器(Diffusion Transformers)展现出了强大的生成能力。这些模型通常依赖于预训练的变分自编码器(VAE)来压缩图像空间,从而在低维潜在空间上进行学习和生成。VAE通过显著减少原始像素的空间维度,提供了一个紧凑且几乎无损的潜在表示,极大地简化了扩散变换器的学习难度。然而,这种两阶段训练方法(先训练VAE,再训练扩散模型)不可避免地引入了累积误差和解码伪影,限制了生成图像的质量和多样性。

与此同时,直接在像素空间上进行扩散学习的模型进展较为缓慢。由于像素空间的庞大维度,直接学习扩散过程面临巨大的计算挑战,且生成的图像细节和结构往往不如基于潜在空间的模型。为了解决这些问题,一些研究尝试了级联解决方案,通过在不同分辨率尺度上分割扩散过程来降低计算成本,但这些方法通常导致训练和推理过程的复杂化。

研究目的
针对上述背景,本研究旨在提出一种新颖、优雅且高效的单尺度、单阶段端到端解决方案——像素神经场扩散(PixelNerd),以消除对VAE的依赖,并直接在像素空间上实现高质量的图像生成。具体目标包括:

  1. 消除累积误差和解码伪影:通过直接在像素空间上学习扩散过程,避免两阶段训练带来的累积误差和解码伪影。
  2. 简化模型架构:提出一种单尺度、单阶段的端到端模型,避免复杂的级联流水线和增加的令牌复杂度。
  3. 实现高质量图像生成:在ImageNet等大型数据集上实现与基于潜在空间的模型相当甚至更优的生成性能。
  4. 拓展应用场景:将模型框架拓展到文本生成图像等应用领域,验证其泛化能力。

研究方法

1. 模型架构设计
PixNerd遵循扩散变换器的设计原则,但用神经场(Neural Field)替换了最终的线性投影层,以建模大块区域的细节。具体来说,PixNerd使用扩散变换器的最后隐藏状态来预测神经场的参数(MLP权重),这些参数随后用于解码每个像素块内的像素级扩散速度。

2. 神经场表示
神经场通常采用多层感知机(MLP)将坐标编码映射到信号(如RGB值)。在PixNerd中,每个像素块内的局部坐标首先被转换为坐标编码,然后与对应的噪声像素值一起输入到神经场MLP中,以预测扩散速度。这种方法显著减轻了在大块配置下学习细节的挑战。

3. 扩散过程建模
PixNerd采用与标准扩散模型相似的扩散过程,但通过神经场来预测每个像素块的扩散速度。在训练过程中,模型通过最小化预测扩散速度与真实扩散速度之间的差异来优化神经场参数。

4. 优化与训练策略
为了提高模型的训练稳定性和生成质量,PixNerd采用了多种优化策略,包括:

  • SwIGLU激活函数:增强模型的非线性表达能力。
  • RMSNorm归一化:稳定训练过程,加速收敛。
  • 对数域采样:提高采样效率,减少计算成本。
  • 表示对齐:通过与DINOv2等预训练模型的中间特征进行对齐,增强模型的生成能力。

研究结果

1. 图像生成质量
在ImageNet 256×256和512×512分辨率上,PixNerd-XL/16分别实现了2.15和2.84的FID分数,与基于潜在空间的模型相当甚至更优。特别是在空间结构方面(sFID),PixNerd-XL/16在ImageNet 256×256上实现了4.55的sFID分数,显著优于其他像素空间生成模型。

2. 文本生成图像应用
将PixNerd框架拓展到文本生成图像领域后,PixNerd-XXL/16在GenEval基准测试中取得了0.73的综合得分,在DPG基准测试中取得了80.9的综合得分,表现极具竞争力。这表明PixNerd不仅限于图像生成任务,还能有效处理更复杂的文本到图像生成场景。

3. 计算效率与资源消耗
与基于潜在空间的模型相比,PixNerd在训练和推理过程中消耗更少的内存和计算资源。特别是在推理阶段,PixNerd-L/16实现了近8倍于其他像素空间扩散模型的加速效果。

研究局限

尽管PixNerd在图像生成质量和计算效率方面取得了显著进展,但仍存在以下局限:

1. 细节表现不足
在某些情况下,PixNerd生成的图像细节仍不够清晰,尤其是在处理复杂场景或精细结构时。这可能是由于神经场在建模极端细节方面的能力有限。

2. 多语言支持有限
虽然PixNerd在英语提示下表现良好,但在处理其他语言(如中文、日语)时,生成图像的质量和多样性可能受到影响。这主要是由于训练数据中非英语提示的覆盖不足。

3. 分辨率适应性
尽管PixNerd通过坐标插值实现了任意分辨率的图像生成,但在处理极高分辨率(如超过1024×1024)时,生成图像的质量和细节可能有所下降。这需要进一步优化神经场的表示能力和扩散过程的建模方法。

未来研究方向

针对上述局限,未来研究可以从以下几个方面展开:

1. 增强细节建模能力
通过改进神经场的架构设计(如增加MLP层数或通道数)或引入更复杂的坐标编码方式,提升模型在建模极端细节方面的能力。此外,可以考虑结合超分辨率技术来进一步提升生成图像的细节表现。

2. 拓展多语言支持
通过收集和标注更多非英语提示的图像数据,增强模型在处理多语言提示时的生成能力和多样性。同时,可以探索跨语言提示生成技术,实现不同语言提示下的高质量图像生成。

3. 提升高分辨率生成能力
针对极高分辨率图像生成的需求,可以研究更高效的神经场表示方法和扩散过程建模技术。例如,可以尝试将神经场与多尺度建模方法相结合,或者引入分块生成和融合策略来提升高分辨率图像的生成质量和效率。

4. 探索更多应用场景
除了文本生成图像外,还可以探索PixNerd在其他生成任务(如视频生成、3D物体生成)中的应用潜力。通过调整模型架构和训练策略,使其能够适应不同类型的数据和生成需求。

5. 优化训练和推理过程
进一步优化模型的训练和推理过程,减少计算成本和内存消耗。例如,可以研究更高效的采样算法和参数优化策略,或者利用硬件加速技术(如GPU并行计算)来提升模型的训练和推理速度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/92163.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/92163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java中的LambdaMetafactory:动态生成Lambda的底层黑魔法

引言 在Java 8中,Lambda表达式作为最引人注目的新特性之一被引入。但你是否曾好奇过,这些简洁的Lambda表达式在底层是如何实现的?这就是LambdaMetafactory发挥作用的地方。作为Java语言中一个不太为人所知但极其重要的类,LambdaMe…

看不见的伪造痕迹:AI时代的鉴伪攻防战

在生成式人工智能飞速发展的今天,“眼见为实”这句话的有效性正面临前所未有的挑战。以往,图像篡改往往通过传统的图像处理工具(如 Photoshop)进行,需要较高的技术门槛和人工成本;而现在,仅需通…

《React+TypeScript实战:前端状态管理的安全架构与性能优化深解》

当用户在界面上进行表单提交、数据筛选等操作时,每一次交互的精准响应,都依赖于底层状态架构对风险的预判与性能的调控。深入理解如何在功能实现之外,构筑一套兼顾状态安全与运行高效的体系,是从基础开发迈向工程化实践的关键一跃。状态管理机制的设计,需要穿透“数据更新…

【android bluetooth 协议分析 01】【HCI 层介绍 30】【hci_event和le_meta_event如何上报到btu层】

一、引言 在蓝牙协议栈中,HCI Event 和 LE Meta Event 是控制器(Controller)向主机(Host)报告事件的两种形式,它们属于 HCI(Host Controller Interface)层。这是主机和控制器之间通…

小实验--震动点灯

1.实验目的 使用中断的方法,震动传感器检测到震动时,LED1点亮2秒,之后熄灭。 2.硬件清单 震动传感器STM32开发板ST-Link 3.硬件连接STM32震动传感器PA4DO3V3VCCGNDGND4.代码 4.1exti.c #include "exti.h" #include "sys.h&quo…

vcpkg: 一款免费开源的C++包管理器

目录 1.简介 2.安装 3.常用命令 4.与项目集成 5.vcpkg的工作原理 5.1.包索引:ports 系统(定义库的 “元信息”) 5.2.源码获取:从 “地址” 到 “本地缓存” 5.3.编译构建:按 “triplet” 定制目标 5.4.安装布…

WinCC通过无线Modbus TCP监控S7-1200/200SMT PLC实例详解

工业自动化系统中,车间内通常部署多台PLC设备并需通过中央监控平台实现集中管控。考虑到工业现场设备间距普遍在数十至数百米范围,传统有线以太网虽能保障传输速率,但其施工需面临电缆沟开挖或复杂布线工程,既增加线材采购、人力投…

【AI智能编程】Trae-IDE工具学习

什么是Trae? Trae与 AI 深度集成,提供智能问答、代码自动补全以及基于 Agent 的 AI 自动编程能力。使用 Trae 开发项目时,你可以与 AI 灵活协作,提升开发效率。提供传统的 IDE 功能,包括代码编写、项目管理、插件管理…

智能驾驶再提速!批量苏州金龙L4级自动驾驶巴士交付杭州临平区

近日,由苏州金龙海格客车研发的“清源”L4级自动驾驶巴士现身杭州市临平区并投入测试。这是临平区引进的首批L4级自动驾驶巴士,标志着临平区智能交通建设迈入新阶段。此次投入测试的“清源”小巴采用一级踏步设计,车身延续了海格蔚蓝巴士的经…

Spring_事务

在mysql阶段的文章中,已经介绍过事务了。本篇文章是对mysql事务的总结和对使用Spring框架来实现事务操作的讲解。事务回顾什么是事务事务时一组操作的集合,是一个不可分割的操作。事务会把所有操作作为一个整体,一起向数据库提交或者撤销操作…

事务管理介绍

为什么要用事务管理在我们同时操作两个或更多个数据库时,可能因为网络等各方面原因导致中间出现异常。造成像对第一个数据库的操作成功了,但是对第二个数据库的操作没有成功。这样数据的完整性就被破坏了。事务:是一组操作的集合,…

Android 之 ViewBinding 实现更安全、高效的视图绑定

​​一、配置说明​​​​作用位置​​需在模块级 build.gradle或 build.gradle.kts文件的 android {}块内添加:android {buildFeatures {viewBinding true // Kotlin DSL 语法} }android {buildFeatures {viewBinding true // Groovy 语法} }​​生成规则​​为每…

全球首款Java专用AI开发助手实测:一句话生成完整工程代码——飞算 JavaAI

🌟 嗨,我是Lethehong!🌟🌍 立志在坚不欲说,成功在久不在速🌍🚀 欢迎关注:👍点赞⬆️留言收藏🚀🍀欢迎使用:小智初学计算机…

Shader开发(七)创建第一个Shader项目

在前面的章节中,我们已经了解了Shader的基本概念和渲染管线的工作原理。现在,是时候动手实践了!本章将带您一步步创建第一个Shader项目,开启真正的Shader开发之旅。 为什么选择openFrameworks? 与其他文章不同&#x…

IAR软件中测量函数执行时间

通常在调试代码中需要直到某个函数或者某段代码的实际执行时间,在IAR中可以直接借助软件提供的工具来计算代码执行时间。 第一种方法 进入仿真调试界面,在需要测量的代码前面打断点。工具栏中选择 ST-LINK — Data Log Summary在 Data Log Summary 窗口中…

Java 字节码文件(.class)的组成详解

文章目录基础信息常量池字段方法属性字节码文件内容说明案例文件基本信息类的基本信息常量池字段信息构造方法实例方法主方法源文件信息字节码文件由五部分组成,分别是基础信息、常量池、字段、方法、属性。案例: public class Main implements Interfa…

C++之vector类的代码及其逻辑详解 (下)

1. insert()这个就是在指定位置插入一个元素,首先计算要插入的这个位置和开头之间的距离,接着判断那个_finish 有没有碰到_endofstorage 或者_endofstorage 是不是为0,如果满足条件,那就进行扩容,然后接着重新计算距离…

【自动化测试】Python Selenium 自动化测试元素定位专业教程

1. 引言:元素定位在 Selenium 中的核心地位 元素定位是 Selenium 自动化测试的基础,所有用户交互操作(如点击、输入、选择)都依赖于准确识别页面元素。Selenium WebDriver 提供了多种定位策略,从简单的 ID 定位到复杂…

通用代码自用

多文件上传public int save(Role role, RequestParam("nfile") MultipartFile nfile, HttpServletRequest request) {System.out.println(nfile.getOriginalFilename());String path request.getSession().getServletContext().getRealPath("/upload");Fi…

生成式AI如何颠覆我们的工作和生活

原问题: ​你觉得生成式AI未来会如何改变普通人的工作和生活?​ 做过一个对比国外和国内工业化产品制造的简单调研,类似一款定制化的台灯或者语音音响,从零到原型实物, 美国至少需要20万美刀,国内成本大概…