【ConvLSTM第一期】ConvLSTM原理

🧠 一、ConvLSTM 原理详解

1.1 背景

传统的 LSTM适合处理一维时间序列数据（如语音、文本），但不适合处理空间结构显著的二维或三维数据（如图像或视频帧）。

LSTM 是为一维序列（如文本、语音）设计的，输入形状是：

(batch, time, features)

例如：

x = torch.rand(32, 10, 100)  # 32个序列，每个10步，每步是100维向量

❌ 如果你把图像当成向量输入 LSTM，会发生什么？

你必须把图像 flatten（摊平），如 64×64 变成 4096
这样会丢失空间结构（像素之间的邻接关系）

ConvLSTM 的改进 —— 处理 3D 空间信息

ConvLSTM 通过将传统 LSTM 中的全连接操作替换为 卷积操作，从而保留空间结构信息。

ConvLSTM 的输入不是 (batch, time, feature)，而是：

(batch, time, channels, height, width)

每一个时间步输入的是一个图像（或图像帧），保留空间结构。

🔁 它在每一时间步中，不再执行全连接运算，而是对图像执行 2D 卷积操作：
在这里插入图片描述

（+）是矩阵乘法（LSTM）
（*）是卷积操作（ConvLSTM）

1.2 ConvLSTM 的结构

在普通 LSTM 中，状态更新公式如下：

i_t = σ(W_xi * x_t + W_hi * h_{t-1} + b_i)
f_t = σ(W_xf * x_t + W_hf * h_{t-1} + b_f)
o_t = σ(W_xo * x_t + W_ho * h_{t-1} + b_o)
g_t = tanh(W_xg * x_t + W_hg * h_{t-1} + b_g)c_t = f_t ⊙ c_{t-1} + i_t ⊙ g_t
h_t = o_t ⊙ tanh(c_t)

LSTM的单元结构如下：
在这里插入图片描述

为了克服LSTM在处理三维信息中的不足，ConvLSTM 将 LSTM 中的2D的输入转换成了3D的tensor，最后两个维度是空间维度（行和列）。对于每一时刻t的数据，ConvLSTM 将 LSTM 中的一部分连接操作替换为了卷积操作，即通过当前输入和局部邻居的过去状态来进行预测。
在这里插入图片描述

在这里插入图片描述

在 ConvLSTM 中，相应的乘法操作 * 被替换为卷积操作 ⊛：

i_t = σ(W_xi ⊛ x_t + W_hi ⊛ h_{t-1} + b_i)
f_t = σ(W_xf ⊛ x_t + W_hf ⊛ h_{t-1} + b_f)
o_t = σ(W_xo ⊛ x_t + W_ho ⊛ h_{t-1} + b_o)
g_t = tanh(W_xg ⊛ x_t + W_hg ⊛ h_{t-1} + b_g)c_t = f_t ⊙ c_{t-1} + i_t ⊙ g_t
h_t = o_t ⊙ tanh(c_t)

其中：

⊛ 表示卷积操作
输入 x_t 是一个多通道图像（如帧）
h_t 和 c_t 是隐藏状态和单元状态的张量，包含空间结构

在这里插入图片描述

参考

1、Tensor（张量）的解释说明

Tensor（张量）就是一个多维数组。

维度	举例	说明
0D	3.14	标量
1D	[1, 2, 3]	向量
2D	[[1,2],[3,4]]	矩阵
3D	RGB 图像：(通道, 高, 宽)
4D	(batch, 通道, 高, 宽)	一批图像
5D	(batch, 时间, 通道, 高, 宽)	一批视频序列（ConvLSTM 的输入张量）

PyTorch 中：

x = torch.rand(2, 10, 1, 64, 64)  # 一个 batch=2 的视频序列

表示：

2 个样本
每个样本有 10 帧图像（时间维度）
每帧是 1 通道（灰度图）
每帧的大小是 64×64（空间维度）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/web/81839.shtml
繁体地址，请注明出处：http://hk.pswp.cn/web/81839.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！