文献阅读：Exploring Autoencoder-based Error-bounded Compression for Scientific Data

- 论文简介
- 动机：为什么作者想要解决这个问题？
- 贡献：作者在这篇论文中完成了什么工作(创新点)？
- 规划：他们如何完成工作？
- - 离线训练阶段：
  - 在线压缩阶段
- 理由：通过什么实验验证它们的工作结果
- 自己的看法(作者如何得到的创新思路)

论文简介

作者
Jinyang Liu,∗Sheng Di,† Kai Zhao,∗Sian Jin,‡ Dingwen Tao,‡ Xin Liang,§ Zizhong Chen,∗Franck Cappello†¶
发表期刊or会议
《2021 IEEE International Conference on Cluster Computing (CLUSTER)》 CCFB
发表时间
2021

动机：为什么作者想要解决这个问题？

AE 在图像压缩中表现优异，但将AE应用于误差有界的科学数据压缩时面临以下挑战：

存在许多类型的自动编码器，每种都具有不同的架构或训练方法，因此确定最有效的AE模型具有挑战性
在误差有界模型中采用具有适当配置设置的自动编码器并非易事
自动编码器（AE）生成的潜在向量需要进一步压缩，在最小化潜在向量存储开销的同时保持高重建质量

缺乏科学数据所需的误差控制机制，且直接应用于科学数据时存在模型选择、参数配置和潜向量存储开销等挑战

AE 通过最小化整体重建误差（如均方误差 MSE）进行训练，但这种 “平均意义” 的优化无法保证每个数据点的误差都被限制在极小范围内。但是科学数据需要逐点误差可控

贡献：作者在这篇论文中完成了什么工作(创新点)？

深入研究了各种自动编码器模型的特征，基于SZ模型开发了一种误差有界的自动编码器框架
针对所设计的基于自动编码器的误差有界压缩框架中的主要阶段进行压缩质量优化，包括微调块大小和潜在向量大小，以及优化潜在向量的压缩效率。
使用五个真实的科学数据集对提出的解决方案进行了评估，并与其他六项相关工作进行了比较。实验表明，我们的解决方案在所有测试的压缩器中表现出极具竞争力的压缩质量

规划：他们如何完成工作？

离线训练阶段：

1.数据分块
将训练数据划分为固定大小的块（如 2D 数据块 32×32，3D 数据块 8×8×8），确保每个块内的数据具有局部相关性，便于 AE 捕捉细粒度特征

2.选择AE模型
通过对比 8 种 AE 模型（如 VAE、WAE、SWAE 等），选定 切片 Wasserstein 自动编码器（SWAE） 作为核心模型。SWAE 因重建误差低（PSNR 最高达 43.9，见表 I）、计算稳定（相比 VAE 无随机采样）和高效性（相比 WAE 计算成本低）被选中

为什么选SWAE：

与其他测试的自编码器相比，SWAE在科学数据上显示出更少的重建损失
与传统的变分自编码器（VAE）不同，SWAE中的编码和解码计算都是决定性的。VAE（如[53]-[57]）实际上是计算输入数据的均值和方差，并根据先验分布的均值和方差对潜在向量进行采样。因此，在相同输入的多次运行中，VAE中作为编码器输出的潜在向量会有所不同，这使得VAE对于数据压缩任务不稳定

3.网络架构

编码器：由卷积块组成（卷积层 + GDN 激活函数），逐步降低特征图维度，生成低维潜在向量。
解码器：镜像对称的反卷积块（反卷积层 + iGDN 激活函数），将潜在向量重建为数据块。
训练目标：最小化重建数据与原始数据的 L1 损失，同时通过 SWAE 的损失函数约束潜在向量的分布，提升泛化能力

在线压缩阶段

1.数据分块：
按训练阶段的块大小分割输入数据，确保 AE 模型可直接应用。

2.双预测器动态选择：
对每个数据块分别使用AE 预测和Lorenzo 预测器（传统线性预测方法），计算两者的 L1 损失，选择损失较小的预测结果：

AE 预测：通过预训练的编码器生成潜在向量，经量化压缩后存储，再由解码器重建数据。
Lorenzo 预测：利用邻近数据点线性预测（如 2D 数据使用 3 邻点，3D 数据使用 7 邻点），适用于低误差界或数据平稳的块。

在这里插入图片描述
大致流程就是：先根据loss决定选择AE还是Lorenzo；然后量化；编码（Huffman+Zstd）

举个例子：

输入块：HURRICANE-U 的 8×8×8 块，512 个浮点数，2048 字节。

自编码器或Lorenzo：SWAE 压缩为 36 维潜在向量（144 字节），初始 CR=2048/144≈14.22。

量化：
假设潜在向量值范围 $[- 5, 5]$ ，误差界限 $e = 0.2$ ，量化步长 $\Delta=0.1$ （确保量化误差 $\Delta/2=0.05$ 经解码器后满足 $e = 0.2$ ）。

每个值量化到整数，例如 $z_i=3.456 \rightarrow q_i=85$ 。
36 维向量（原本 36×4=144 字节）量化后假设用 8 位整数表示，减到 36×1=36 字节。

Huffman 编码：

量化整数 [85, 23, 45, …]，Huffman 编码后假设减到 25 字节（基于频率优化）。

Zstd 压缩：

Zstd 进一步压缩到 20 字节（捕获模式冗余）。

压缩比：
$\text{CR} = \frac{2048}{20} = 102.4 \approx 100$

3.量化与编码：

误差量化：对预测误差进行线性量化，确保量化后的误差在用户指定的误差界 e 内。若误差超过范围，标记为 “不可预测数据”（U）单独存储。
对量化后的误差和潜在向量分别进行 Huffman 编码和 Zstd 压缩，生成最终的压缩数据。

Huffman 编码先处理量化后值的局部冗余（基于频率），生成紧凑的比特流；Zstd 再处理比特流中的全局模式（如序列重复），进一步压缩。

理由：通过什么实验验证它们的工作结果

实验数据：使用五个来自不同领域的真实应用数据集，包括 CESM（气候模拟数据）、RTM（地震成像数据）、NYX（宇宙学模拟数据）、Hurricane（飓风模拟数据）和 EXAFEL（分子结构 X 射线衍射数据）

对比方法：将 AE-SZ 与六种其他有损压缩器进行比较，包括经典的误差有界压缩器 SZ2.1、ZFP0.5.5，基于 SZ 框架的 SZauto、SZinterp，以及基于自动编码器的科学数据压缩器 AE-A、AE-B

评估指标

率失真：通过绘制峰值信噪比（PSNR）和比特率的关系曲线，评估压缩质量。

“率失真”（Rate-Distortion）是评估有损压缩质量的核心概念，其本质是衡量 压缩后的数据量（率，Rate）与重建数据的失真程度（Distortion） 之间的权衡关系。

率：压缩后的数据量，通常用比特率（Bit Rate）表示，即每数据点占用的比特数，比特率越低，代表压缩比越高

失真（Distortion）：重建数据的误差，本文用峰值信噪比（PSNR）衡量，单位为分贝（dB）
相同压缩比下的可视化：比较在相同压缩比下重建数据的视觉质量。
压缩速度和解压缩速度：分别计算压缩速度（original size/compression time，MB/s）和解压缩速度（reconstracted size/decompression time，MB/s）。

实验结果与分析

率失真结果：AE-SZ 在率失真方面明显优于其他基于 AE 的有损压缩器，在低比特率（高压缩比）情况下，比 SZauto、SZ2.1 和 ZFP 的率失真更好，在高比特率下与 SZ2.1 质量相当。
解压缩数据可视化：在高压缩比情况下，AE-SZ 重建数据的视觉质量良好，优于 SZauto、SZ2.1、ZFP 和 SZinterp 等压缩器。
AE-SZ 预测器性能：在中等误差界（约 5E-3 至 2E-2）范围内，AE-SZ 中的自动编码器在预测数据块时比 Lorenzo 更具优势；随着误差界减小，Lorenzo 预测器在更多数据块上表现更好。
压缩速度和自动编码器训练速度：由于神经网络计算成本较高，AE-SZ 的压缩速度约为传统有损压缩器的 10%-40%，但比其他基于自动编码器的压缩器快 30× 至 200×；AE-SZ 中自动编码器的训练时间比 AE-A 更短或相近。