TIME WEAVER: A Conditional Time Series Generation Model论文阅读笔记

TIME WEAVER: A Conditional Time Series Generation Model

摘要

想象一下，根据天气、电动汽车的存在和位置生成一个城市的电力需求模式，这可以用于在冬季冻结期间进行容量规划。这样的真实世界的时间序列通常包含配对的异构上下文元数据（天气、位置等）。当前的时间序列生成方法经常忽略这种配对元数据，并且他的异质性在应用于现有方法（无论是图像、音频、视频还是时序领域）时表现出多个挑战。为了解决这一差距，我们引入了TIME WEAVER（一种新的基于扩散的模型），它利用分类、连续甚至时变变量形式的异构元数据来显著改善时间序列生成。此外，我们还表明，将标准评价指标从图像朴素地扩展到时间序列域是不够的。这些指标不会因为条件生成方法在生成的时间序列中再现元数据特定特征的特异性较差而惩罚它们。因此，我们创新了一种新的评估指标，可以准确地捕捉条件生成的特异性和生成的时间序列的真实感。我们表明，TIME WEAVER在现实世界的能源、医疗、空气质量和交通数据集的下游分类任务中，比生成对抗网络（gan）等最先进的基准性能高出27%。

引言

当前的时间序列生成方法忽略了丰富的上下文元数据，因此不能灵活地用于生成特定现实世界条件的时间序列

基于丰富的元数据条件生成真实的时间序列不是对条件图像、视频或音频生成的直接扩展，两者存在巨大的差异。具体的时序数据的生成和评价过程存在以下挑战：

丰富的元数据：元数据可以是分类的（例如，患者是否有起搏器），也可以是定量的（例如，年龄），甚至是时间序列，例如预期降水。任何时序数据的条件生成模型应该结合这些元数据。相反，图像、视频和音频生成通常处理静态文本提示
合成数据质量的目视检查：目视检查是评估图像生成方法的关键方面，就像评估初始化一样分数（IS）由于符合人类的判断而被广泛采用。相反，看一眼时间序列并判断它是否保留了关键特征（如统计矩或频谱）是非常重要的
架构差异：在图像和音频领域，我们有强大的特征提取器在巨量的数据上训练，这些是图像生成中编码条件的重要组成部分。然而，由于时间序列数据集在水平长度、通道数量和元数据的异质性方面具有高度不规则的性质，这样的特征提取器在时间序列域中并不存在
评估度量：评估条件生成方法需要一个度量，该度量可以捕获生成的样本相对于其配对元数据的特殊性。在图4中，我们展示了现有的度量，比如the time series equivalent of the standard Frechet Inception Distance (FID) score，其未能捕捉到这种特异性，仅衡量真实数据分布与生成数据分布的接近程度。这是因为这些指标在它们的评估中完全忽略了成对的元数据

在这里插入图片描述

基于以上的挑战，本文的主要贡献包括：

我们提出了TIME WEAVER，这是一种新的扩散模型，用于在配对元数据的条件下生成现实的多变量时间序列。我们特别对标准扩散模型架构进行了创新，以处理分类和连续的元数据条件。
我们提出了一个新的度量，联合Frechet时间序列距离（J-FTSD），专门设计用于评估条件时间序列数据生成模型。JFTSD使用经过约束学习训练的特征提取器合并时间序列和元数据条件。在第6节中，我们展示了J-FTSD基于对条件时间序列数据分布建模的能力对方法进行精确排序的能力。
我们表明，我们的方法在生成高质量、元数据特定的时间序列方面明显优于最先进的GAN模型，这些时间序列适用于现实世界的能源、医疗保健、污染和交通数据集（图2）。

在这里插入图片描述

背景与相关工作

时序生成模型
条件时序生成的度量

问题描述

考虑一个多变量时间序列样本 $x∈RL×Fx\in \mathbb{R}^{L\times F}$ ，其中 $L$ 表示时间序列水平， $F$ 表示通道数。每个样本 $x$ 与元数据 $c$ 相关联，元数据 $c$ 由分类特征 $ccat∈NL×Kcatc_{cat}\in \mathbb{N}^{L\times K_{cat}}$ 和连续特征 $ccont∈RL×Kcontc_{cont}\in\mathbb{R}^{L\times K_{cont}}$ 组成。这里， $K_{cat}$ 和 $K_{cont}$ 分别表示分类元数据特征和连续元数据特征的总数。这些特征被连接为 $c_{cat}\oplus c_{cont}$ ，其中 $⊕\oplus$ 表示向量连接操作。因此，元数据域定义为 $NL×Kcat×RL×Kcont\mathbb{N}^{L\times K_{cat}} \times \mathbb{R}^{L\times K_{cont}}$ 。注意， $c_{cat}$ 和 $c_{cont}$ 域允许随时间变化的元数据特性。

举例来说：

考虑使用配对元数据生成表示96小时（ $L = 96$ ）期间高速公路（ $F = 1$ ）交通量的时间序列数据。该元数据包括 $7$ 个随时间变化的分类特征，如假日（ $12$ 个唯一标签）和天气描述（ $11$ 个唯一标签），用 $K_{cat} = 7$ 表示。它还包括预期温度、降雨预报等四个时变连续特征，用 $K_{cont} = 4$ 表示。

我们表示数据集 $Dx,c={(xi,ci)}i=1nD_{x, c} = \{(x_i, c_i)\}^n_{i=1}$ ，由时间序列数据 $x$ 和配对元数据 $c$ 的 $n$ 个独立且同分布（i.i.d）样本组成，从联合分布 $p (x, c)$ 中采样。我们的目标是开发一个条件生成模型 $G$ ，使得 $G (c)$ 生成的样本在分布上匹配 $p (x ∣ c)$ 。

使用Time Weaver的条件时序生成

在这里插入图片描述

TIME WEAVER模型由两部分组成——生成数据的去噪主干和处理随时间变化的分类和连续元数据变量的预处理模块

元数据预处理：通过concatenat组合，然后将来自不同模态的这些数据利用自监督方法进行加权组合

类别token编码器 $θtokencat\theta^{cat}_{token}$ 首先会将类别 $c_{cat}$ 转变为one-hot编码，然后通过一个全连接层变为embedding $zcat∈RL×dcatz_{cat}\in\mathbb{R}^{L\times d_{cat}}$ 。continuous token做同样处理。使用FC层允许模型在分类和连续领域内学习不同元数据特征之间的内在相关性，当然也可以使用其他的模型结构
$z_{cat}$ 和 $z_{cont}$ 然后会concat在一起并通过自监督模块生成元数据embedding $z∈RL×dmetaz\in\mathbb{R}^{L\times d_{meta}}$ ，自注意力层使生成模型能够捕获不同元数据特征之间的时间关系

去噪器：作为TIME WEAVER的去噪骨干，我们依赖于两个最先进的架构——CSDI和SSSD。CSDI模型采用特征层和时间自注意层处理时序时间序列数据，SSSD使用结构化的状态空间层。请注意，这些去噪模型是为输入和预测任务而设计的，因此它们被设计为将未输入和历史时间序列作为各自的输入。最小化下面的损失，使TIME WEAVER能够学习如何从条件分布 $p (x ∣ c)$ 中生成样本。
$\mathcal{L}_{(\theta_{denoiser},\theta_{condn},\theta_{token}^{cont},\theta_{token}^{cat})}=\mathbb{E}_{x,c\sim D_{x,c},\epsilon\sim\mathcal{N}(\mathbf{0},\mathbf{I}),t\sim\mathcal{U}(1,T)[||\epsilon-\theta_{denoiser}(x_t,t,z||_2^2)]}$
在推理过程中，我们从 $xT∼N(0,I)x_T \sim \mathcal{N}(\mathbf{0},\mathbf{I})$ 开始，迭代去噪（以元数据 $c$ 作为输入）T步，生成 $x0∼p(x∣c)x_0 \sim p(x|c)$ ，这一过程如图3所示。

Joint Frechet 时序距离

如果时间序列和配对元数据的真实和生成的联合分布不匹配，那么一个好的距离度量应该惩罚条件生成方法（提供更高的值）。现有的度量标准，例如Context-FID 仅依赖于时间序列特征提取器，度量计算不涉及配对元数据。这可以防止这些指标因为条件生成方法无法在生成的时间序列中重现元数据特定的特征而惩罚它们。因此，我们提出了一个新的度量来评估元数据条件下的时间序列生成Joint Frechet时间序列距离（J-FTSD）

在J-FTSD中，我们计算时间序列的真实和生成的联合分布与配对元数据之间的FD。首先，与FID和FJD计算类似，本文使用 $θtime(⋅)\theta_{time}(\cdot)$ 和 $θmeta(⋅)\theta_{meta}(\cdot)$ 将时间序列和配对元数据投影到较低维嵌入空间： $RL×F→Rdemb\mathbb{R}^{L\times F}\rightarrow\mathbb{R}^{d_{emb}}$ 和 $RL×K→Rdemb\mathbb{R}^{L\times K}\rightarrow \mathbb{R}^{d_{emb}}$ 作为各自的特征提取器，其中 $d_{emb}$ 是嵌入向量的大小。我们将这些时间序列和元数据嵌入连接起来，创建一个联合嵌入空间。然后我们计算joint嵌入空间上的FD。因此，J-FTSD的正式定义为：
$J-FTSD(D_g,D_r)=||\mu_{z^r}-\mu_{z^g}||^2+Tr(\sum z^r+\sum z^g - 2(\sum z^r\sum z^g)^{\frac{1}{2}})\\ z_i^d=\phi_{time}(x_i^d)\oplus\phi_{meta}(c_i)\;\forall i:(x_i^d,c_i)\in D_d\\ \mu_{z^d}=\frac{1}{n}\sum_{i=1}^n z_i^d,\;\sum z^d=\frac{1}{n-1}\sum_{i=1}^n(z_i^d-\mu_{z^d})^T$
特征提取器的训练：我们结合对比学习共同训练 $ϕtine\phi_{tine}$ 和 $ϕmeta\phi_{meta}$ ，以更好地捕获时间序列和配对元数据的联合分布，因为对比学习是将来自各种模式的数据映射到共享潜在空间的常用方法

在这里插入图片描述

该度量准则的优势：J-FTSD 一个方面涉及估计时间序列与元数据嵌入之间的协方差。此外，通过对比学习联合训练特征提取器有助于有效捕捉时间序列与元数据嵌入之间的相关性。因此，如果生成的时间序列不包含特定于元数据的特征，协方差项就会减小。这使得 J-FTSD 能够准确地对真实联合分布与生成联合分布之间的差异进行惩罚，这将直接转化为惩罚条件生成，因为它们在再现元数据特定特征方面的特异性较差。