[2025CVPR:图象合成、生成方向]WF-VAE:通过小波驱动的能量流增强视频 VAE 的潜在视频扩散模型

论文概述

这篇论文提出了一种名为WF-VAE(Wavelet Flow VAE)​的新型视频变分自编码器(Video VAE),旨在解决潜在视频扩散模型(LVDM)中的关键瓶颈问题,包括高计算成本和潜在空间不连续性。WF-VAE利用小波变换(Wavelet Transform)来分解视频信号,并通过能量流路径优化信息编码,显著提升了效率和重建质量。同时,论文引入了Causal Cache机制,支持无损的分块推理(block-wise inference),解决了长视频处理中的闪烁和失真问题。实验表明,WF-VAE在PSNR、LPIPS等指标上优于现有方法,同时将吞吐量提高2倍、内存消耗降低4倍。


背景与动机

视频变分自编码器(Video VAE)是LVDM的核心组件,用于将视频压缩到低维潜在空间,以降低扩散模型的训练成本。然而,随着视频分辨率和时长增加,现有VAE面临两大挑战:

  • 计算瓶颈​:现有方法(如OD-VAE、Allegro)使用密集3D卷积架构,导致高内存消耗和低吞吐量。例如,处理512×512分辨率视频时,基线模型内存占用可高达55GB,而编码速度慢至0.37秒/帧。
  • 潜在空间不连续​:分块推理策略(如Open-Sora和CogVideoX所用)会导致视频重叠区域的失真和闪烁,破坏潜在空间完整性。例如,分块推理使PSNR下降高达6.4。

这些问题源于现有VAE未能有效利用视频的时空冗余信息。因此,论文提

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/93046.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/93046.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Map接口-实现类HashMap

目录 一、什么是Map? 二、实现类HashMap 1.关键特点 无序、key唯一、value允许重复、key和value允许为null。 2.数据结构 2.1 JDK 1.7 2.2 JDK 1.8 2.3 关键参数 2.4 关键计算 3.扩容方式 3.1 初始化 3.2 扩容 4.常见方法 4.1 根据key存入value 4.2 …

深入解析Hadoop如何实现数据可靠性:三副本策略、校验和验证与Pipeline复制

Hadoop数据可靠性的重要性在大数据时代,数据可靠性已成为企业数字化转型的生命线。根据IDC预测,到2025年全球数据总量将增长至175ZB,其中企业数据占比超过60%。面对如此庞大的数据规模,任何数据丢失或损坏都可能造成数百万美元的经…

15.6 DeepSpeed+Transformers实战:LLaMA-7B训练效率提升210%,显存直降73%

DeepSpeedTransformers实战:LLaMA-7B训练效率提升210%的底层逻辑与实操指南 当LLaMA-7B的训练显存需求达到78GB时,单卡A100(80GB)几乎濒临溢出,更不用说普通GPU集群。而DeepSpeed与Hugging Face Transformers的深度集成,通过"ZeRO三阶段优化+混合精度+梯度检查点&q…

Nginx + PM2 实现Express API + React 前端 本地测试服务器搭建

一、工具准备 openSSL:需要针对https请求头 生成对应的 自签名证书。 Nginx:服务器搭建工具 nodeJS: Express API运行环境 PM2: node进程管理器。用于替代npm命令管理 启动命令。 二、openSSL 本地自签名证书生成。 创建服务器空文件夹&#xff08…

OTG原理讲解

文章目录一、什么是 OTG(USB On-The-Go)?✅ OTG 的定义:二、传统 USB 与 OTG 的区别三、OTG 的核心机制:**通过 ID 引脚判断角色**1. 对于 Micro-USB OTG:2. 电路如何感知 ID 引脚?四、OTG 电路…

数据结构系列之红黑树

前言 红黑树是比较重要的一颗树了,map和set的底层就是红黑树,一定要牢牢记住。 一、什么是红黑树 首先:红黑树仍然是一颗搜索二叉树,但他引入了颜色这一概念,每个结点多一个存储位来存储颜色,它通过维护下…

在OpenMP中,#pragma omp的使用

在OpenMP中,#pragma omp for 和 #pragma omp parallel for(或 #pragma omp parallel num_threads(N))有本质区别,主要体现在 并行区域的创建 和 工作分配方式 上。以下是详细对比:1. #pragma omp for 作用 仅分配循环迭…

停止“玩具式”试探:深入拆解ChatGPT Agent的技术栈与实战避坑指南

摘要: 当许多人还在用ChatGPT写周报、生成样板代码时,其底层的Agent化能力已经预示着一场深刻的开发范式变革。这不再是简单的“AI辅助”,而是“人机协同”的雏形。本文旨在穿透表面的功能宣传,从技术栈层面拆解Agent模式的实现基…

element-plus安装以及使用

element-plus时为vue.js 3开发的组件库。 在引入前需要做如下准备 安装node.js https://blog.csdn.net/zlpzlpzyd/article/details/147704723 安装vue的脚手架vue-cli https://blog.csdn.net/zlpzlpzyd/article/details/149647351 安装element-plus github地址 https://git…

学习随想录-- web3学习入门计划

#60 转方向 web3 golang 以太坊应用 这是课表部分(Golang以太坊方向) Sheet b站up学习计划 第一阶段:基础能力构建(1-2 个月) 学习目标 掌握 Golang 核心语法与以太坊底层基础概念,建立开发知识框架。…

【RAG优化】PDF复杂表格解析问题分析

在构建检索增强生成(RAG)应用时,PDF文档无疑是最重要、也最普遍的知识来源之一。然而,PDF中潜藏着RAG系统的难点问题——复杂表格。这些表格富含高密度的结构化信息,对回答精准问题至关重要,但其复杂的视觉布局(多层表头、合并单元格、跨页表格等)常常让标准的文本提取…

ReAct Agent(LangGraph实现)

文章目录参考资料一 AI Agent二 ReAct三 LangGraph实现ReAct代理3.1 SerperAPI实时联网搜索3.2 ReAct实现参考资料 entic RAG 架构的基本原理与应用入门 一 AI Agent AI Agent 整个过程是一个动态循环。Agent不断从环境中学习,通过其行动影响环境,然后…

如何从0到1的建立组织级项目管理体系【现状诊断】

今天我想给大家分享是“如何在企业中从0到1的去建立PMO的组织级项目管理体系。”的系列文章,这是我近几年来一直在努力的尝试去探索和实践的过程,从0到1的过程。当我最开始去接手这样一个场景的时候所需要做的第一件事情是诊断和差距分析。这是多年以来做…

网络通信协议详解:TCP协议 vs HTTP协议

在计算机网络中,TCP(传输控制协议)和HTTP(超文本传输协议)是两个核心协议,但它们的职责和层级完全不同。TCP是底层传输协议,负责数据的可靠传输;HTTP是应用层协议,定义了…

[Qt]QString隐式拷贝

引言在Qt框架中,QString 作为字符串处理的核心类,其高效的内存管理机制一直是开发者津津乐道的特性。这背后的关键便是 隐式共享(Implicit Sharing),也称为 写时复制(Copy-On-Write, COW)。本文…

命令行创建 UV 环境及本地化实战演示—— 基于《Python 多版本与开发环境治理架构设计》的最佳实践

命令行创建 UV 环境及本地化实战:基于架构设计的最佳实践 Python 多版本环境治理理念驱动的系统架构设计:三维治理、四级隔离、五项自治 原则-CSDN博客 使用 Conda 工具链创建 UV 本地虚拟环境全记录——基于《Python 多版本与开发环境治理架构设计》-CS…

跨域问题全解:从原理到实战

在计算机网络中,跨域(Cross-Origin) 指的是浏览器出于安全考虑,限制网页脚本(如 JavaScript)向与当前页面不同源(Origin) 的服务器发起请求的行为。这是由浏览器的同源策略&#xff…

(46)elasticsearch-华为云CCE无状态负载部署

一、准备好elasticsearch镜像并提前上传到镜像仓库 此次准备的是elasticsearch:v7.10.2 二、开始部署 负载名称:es-deployment 注意:内部配额太低会造成多次重启 环境变量: #单节点启动(实例pod可以多增加几个) discovery.type single-node 三、添加svc 四、注意:…

HCLP--MGER综合实验

一、拓扑图二、需求1、R5为ISP,只能进行IP地址配置,其所有地址均配为公有I地址; 2、R1和R5间使用PPP的PAP认证,R5为主认证方, R2与R5之间使用ppp的CHAP认证,R5为主认证方; R3与R5之间使用HDLc封装; 3、R1、R2、R3构建一…

idea中无法删除模块,只能remove?

1.先对module右键想要删除的module,选择remove module(这是idea为了避免误操作) 2.在remove module后,模块并未从项目结构中删除(磁盘中也依旧存在),但再次右击你会发现,出现了del…