AAAI 2025论文分享│STD-PLM:基于预训练语言模型的时空数据预测与补全方法

本文详细介绍了一篇发表于人工智能顶级会议AAAI 2025的论文《STD-PLM: Understanding Both Spatial and Temporal Properties of Spatial-Temporal Data with PLM》。该论文提出了一种基于预训练语言模型(Pre-trained Language Model‌,PLM)的时空预测与补全统一框架STD-PLM。通过显式设计的时空标记器和时空嵌入,STD-PLM 能够有效理解时空数据的空间和时间特性。此外,还引入沙漏注意力模块(Sandglass Attention.SGA),通过构建区域级空间标记显著降低计算成本。大量实验表明,STD-PLM表现出具有竞争力的性能。论文的工作表明,构建基于PLM的统一预训练时空模型具有广阔前景。

本推文由韩煦撰写,审核为邓镝。

原文链接:https://arxiv.org/html/2407.09096v4

代码链接:https://github.com/Hyheng/STD-PLM

一、研究背景

时空数据的时空特性理解对智能交通、城市规划等动态系统至关重要,其中时空预测与补全是核心任务。精准的预测可优化交通管理与出行规划,补全则能支撑时空模式分析及下游任务。然而,现有方法存在以下核心挑战:

  1. 时空相关性建模不足:传统PLM缺乏对时间序列动态性、空间拓扑结构(如节点连通性)及高阶时空交互的显式建模;
  2. 任务适配性差:现有PLM-based方法多聚焦预测任务,补全能力不足,且难以同时支持多任务;
  3. 计算效率瓶颈:PLM的高维嵌入与大量tokens导致处理时空数据时训练和推理成本激增;

该论文的主要贡献如下。

  1. 提出STD-PLM统一框架。设计基于预训练语言模型的时空预测与补全统一框架,实现对时空数据的空间和时间特性的联合建模,同时支持时空预测、补全、零样本及少样本学习任务。
  2. 设计拓扑感知节点嵌入,利用图拉普拉斯矩阵的特征向量捕捉空间拓扑结构,使PLM能感知节点间的静态关系与动态状态。
  3. 开发空间和时间标记器,从时空双维度将数据转换为PLM可处理的标记序列,显式建模时间相关性、空间连通性及高阶时空交互。
  4. 设计沙漏注意力模块(SGA),通过区域级标记聚合减少计算量,结合约束损失函数强制模型学习符合原始图结构的特征,在保证性能的同时显著提升计算效率。

 二、方法

1、方法概述

1 STD-PLM 模型架构

图1展示了STD-PLM模型架构,图中将模型分为了四部分:模块A为节点和时间信息提供时空嵌入。时空标记器B从不同角度构建时间标记和空间标记。模块C基于B-2输出的节点级空间标记构建区域级空间标记。模块D将隐藏表示投影到目标输出。对于预训练语言模型,采用了部分冻结策略,并结合低秩适应技术对多头注意力、位置嵌入和层归一化层进行微调。

2、时空嵌入

拓扑感知节点嵌入:利用图拉普拉斯矩阵的特征向量捕捉空间节点的拓扑结构,通过选取前 K大特征值对应的特征向量,生成包含节点连通性信息的嵌入表示,其作用为捕捉节点在空间网络中的拓扑属性(如枢纽节点与边缘节点的差异),支持归纳式学习(即模型可泛化到未见过的图结构,如不同城市的交通网络)。

周期感知时间嵌入:结合 “小时级” 和 “星期级” 周期性粒度,构建时间嵌入字典,通过查表与拼接操作生成包含时间上下文的向量,捕捉数据的周期性波动模式。

3、时空标记器

空间标记器为每个节点生成包含 “静态属性”(节点嵌入与时间嵌入)、“动态状态”(历史数据特征)和 “缺失掩码” 的标记,支持 PLM 建模节点间的复杂空间依赖;

内在状态:拼接时间与节点嵌入,通过 MLP 提取静态时空特征(如节点在特定时段的拓扑角色)。

动态状态:直接对原始数据应用多层感知机( Multilayer Perceptron‌,MLP),捕捉实时动态特征(如节点的流量、速度)。

掩码标记:将二进制掩码转换为标记,显式提示缺失位置(补全任务关键)。
融合操作:通过逐元素相加与层归一化,生成包含 “动态 + 静态 + 缺失” 信息的复合标记。

时间标记器通过全局聚合节点信息,生成 “整体状态” 与 “变化趋势” 标记,帮助 PLM 捕捉时空数据的宏观演化规律,避免仅依赖局部节点信息。

整体状态:融合全局平均状态与最后时刻的时间嵌入,体现当前系统整体状态。

整体趋势:融合全局趋势与时间嵌入,表征 “系统随时间的变化方向”

4、沙漏注意力模块

编码器:通过可学习查询矩阵将节点级空间标记压缩为更少的区域级标记,减少计算量的同时捕捉非成对、高阶时空相关性;

解码器:将区域级表示还原为节点级,结合约束损失函数(强制区域划分符合原始图结构),确保压缩过程中拓扑信息不丢失;

效率优化:通过稀疏注意力机制与区域级聚合,显著降低 PLM 处理大规模节点时的时间与内存开销。

三、实验

1.实验设置

数据集:在交通领域的四个真实数据集(PEMS03/04/07/08)上,STD-PLM通过多维度实验验证了其在时空预测、补全及少样本场景下的领先性能。

基线对比:选取LSTM、ASTGCN等 7 种传统深度学习模型,以及OFA、STGLLM等 3 种 PLM-based 模型作为基线;

训练策略:采用6:2:2的数据集划分,滑动窗口构建样本,使用AdaW优化器及LoRA技术微调 PLM 参数,平衡效率与性能。

2、与最先进方法的比较

基线模型有两种,包括六种传统深度学习模型和三种基于预训练语言模型的模型。

1 预测性能

表1展示了 STD-PLM 与六种传统深度学习模型(如LSTM、ASTGCN等)及三种PLM-based模型(如OFA、STGLLM等)在四个交通数据集上的预测性能对比,指标包括MAE(平均绝对误差)、RMSE(均方根误差)和MAPE(平均绝对百分比误差)。STD-PLM在所有数据集上实现最优或次优性能。

2 在PEMS08数据集上的补全性能

表2展示了STD-PLM与BRITS、E2GAN等4种基线模型在PEMS08数据集高缺失率(70%)场景下的补全性能,结果显示:在随机缺失(RM)和时空连续缺失(CM)两种模式中,STD-PLM均以显著优势领先——RM 场景下 MAE为14.36,CM 场景下MAE为22.69。其核心优势源于掩码标记显式定位缺失位置、时空嵌入融合拓扑与周期先验及PLM 生成能力支持长程推理,使模型在高缺失率下仍能结合全局趋势(如早晚高峰规律)与局部拓扑关联(生成合理补全值,突破了传统方法依赖局部观测或数据拟合的局限,为传感器故障、数据采集不全等实际场景提供了高效可靠的解决方案。

3、消融研究

消融研究通过移除STD-PLM的关键组件,验证各模块对性能的贡献。假设表3对比了以下变体:

  1. 完整模型(STD-PLM):包含时空嵌入、时空标记器、沙漏注意力模块(SGA)及PLM微调策略;
  2. w/o 时空嵌入:移除拓扑感知节点嵌入与时间周期嵌入,仅用原始数据特征;
  3. w/o 时空标记器:直接将原始数据输入PLM,不进行时空维度解耦;
  4. w/o SGA 模块:保留节点级标记,不进行区域压缩;
  5. w/o 掩码标记:在补全任务中移除缺失模式编码。

表 3 消融分析

消融研究证实了STD-PLM的每个组件均不可替代:时空嵌入注入领域先验,时空标记器激活PLM时空理解,SGA模块优化计算效率,掩码标记增强补全针对性。这一结果不仅验证了模型设计的合理性,也为后续时空PLM的组件优化提供了方向。

四、总结

本文介绍了STD-PLM模型,旨在通过预训练语言模型解决时空数据的预测与补全问题。模型通过时空嵌入模块生成拓扑感知的节点嵌入与周期感知的时间嵌入,融合空间结构与时间规律;利用时空标记器解耦时空维度,构建包含动态状态、静态先验及缺失掩码的节点级标记与全局时间趋势标记;通过沙漏注意力模块压缩节点级标记为区域级以降低预训练语言模型的计算复杂度,同时通过约束损失保留拓扑信息;采用部分冻结预训练语言模型结合低秩自适应‌微调策略平衡预训练知识与任务适配性。实验表明,STD-PLM在交通数据集PEMS03/04/07/08的预测与补全任务中性能显著优于传统深度学习模型及其他PLM-based模型,尤其在70% 高缺失率场景下补全误差降低超40%,消融研究验证了各组件的必要性。该模型通过时空特性显式建模、预训练语言模型的推理能力与效率优化的结合,为时空智能任务提供了高效且泛化性强的解决方案,适用于智能交通、城市计算等数据稀缺或大规模场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/83414.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端八股 tcp 和 udp

都是传输层协议 udp 数据报协议 不可靠面向数据包对于应用层传递的报文加上UDP首部就传给网络层 tcp 传输控制协议 可靠 会将报文分段进行传输 区别: 1.tcp 可靠 udp 不可靠 2.tcp 面向连接 三握四挥 udp 无连接 3.tcp面向字节流 udp面向报文 4.效率低 效率高…

MES管理系统:Java+Vue,含源码与文档,实现生产过程实时监控、调度与优化,提升制造企业效能

前言: 在当今竞争激烈的制造业环境中,企业面临着提高生产效率、降低成本、提升产品质量以及快速响应市场变化等多重挑战。MES管理系统作为连接企业上层计划管理系统与底层工业控制之间的桥梁,扮演着至关重要的角色。它能够实时收集、分析和处…

MSTNet:用于糖尿病视网膜病变分类的多尺度空间感知 Transformer 与多实例学习方法|文献速递-深度学习医疗AI最新文献

Title 题目 MSTNet: Multi-scale spatial-aware transformer with multi-instance learning for diabetic retinopathy classification MSTNet:用于糖尿病视网膜病变分类的多尺度空间感知 Transformer 与多实例学习方法 01 文献速递介绍 糖尿病视网膜病变&#…

每日八股文6.2

每日八股-6.2 Go1.GMP调度原理(这部分多去看看golang三关加深理解)2.GC(同样多去看看golang三关加深理解)3.闭包4.go语言函数是一等公民是什么意思5.sync.Mutex和sync.RWMutex6.sync.WaitGroup7.sync.Cond8.sync.Pool9.panic和rec…

【Unity】相机 Cameras

1 前言 主要介绍官方文档中相机模块的内容。 关于“9动态分辨率”,这部分很多API文档只是提了一下,具体细节还需要自己深入API才行。 2 摄像机介绍 Unity 场景在三维空间中表示游戏对象。由于观察者的屏幕是二维屏幕,Unity 需要捕捉视图并将…

SpringBoot(六)--- AOP、ThreadLocal

目录 前言 一、AOP基础 1.入门程序 2. AOP核心概念 3. 底层原理 二、AOP进阶 1.通知类型 抽取切入点 2. 切入点表达式 2.1 execution 2.2 annoation 2.3 连接点详解 三、ThreadLocal 前言 AOP(面向切面编程),面向切面编程实际就…

【深度学习】 19. 生成模型:Diffusion Models

Diffusion Models Diffusion Models 简介 Diffusion 模型是一类通过逐步添加噪声并再逆向还原的方式进行图像生成的深度生成模型。其基本流程包括: 前向过程(Forward Process):将真实图像逐步加噪,最终变为高斯噪声…

Y1——链式前向星

知识点 模版——链表的前插法 head表示头结点的下标 ver[i]表示结点i 的值 tot存储当前已经用到了哪个 add用于将x插到头结点 int head1; intt ver[N],Next[N]; int ttot-1; void add(int x){ver[tot]x;Next[tot]head;headtot; } 常见的链式前向星三种实现形式&#xff…

如何排查Redis单个Key命中率骤降?

问题现象 Redis整体命中率98%,但监控发现特定Key(如user:1000:profile)的命中率从99%骤降至40%,引发服务延迟上升。 排查步骤 1. 确认现象与定位Key // 通过Redis监控工具获取Key指标 public void monitorKey(String key) {Je…

自定义Shell命令行解释器

目录 1、目标 2、显示命令提示符 2.1 getenv 2.2 getcwd 2.3 putenv 3、获取用户输入的命令 4、解析命令 5、处理内建命令 6、处理外部命令 7、完整代码 7.1 myshell.cpp 7.2 Makefile 1、目标 实现一个Linux的myshell,有以下基本的功能。 显示命令提示…

Laplace 噪声

Laplace 噪声是一种特定概率分布(拉普拉斯分布)产生的随机扰动。它是差分隐私(Differential Privacy, DP)中最核心、最常用的噪声机制之一。它的核心作用是在不泄露个体信息的前提下,允许从包含敏感数据的数据库中提取…

基于空天地一体化网络的通信系统matlab性能分析

目录 1.引言 2.算法仿真效果演示 3.数据集格式或算法参数简介 4.MATLAB核心程序 5.算法涉及理论知识概要 5.1 QPSK调制原理 5.2 空天地一体化网络信道模型 5.3 空天地一体化网络信道特性 6.参考文献 7.完整算法代码文件获得 1.引言 空天地一体化网络是一种将卫星通信…

【Delphi】接收windows文件夹中文件拖拽

本文根据EmailX45的视频文件,进行了优化改进,原文参见:Delphi: Drag and Drop Files from Explorer into TPanel / TMemo - YouTube 在Windows中,如果将选择的文件拖动到Delphi程序的控件上,有很多实现方法&#xff0c…

基于热力学熵增原理的EM-GAN

简介 简介:提出基于热力学熵增原理的EM-GAN,通过生成器熵最大化约束增强输出多样性。引入熵敏感激活函数与特征空间熵计算模块,在MNIST/CelebA等数据集上实现FID分数提升23.6%,有效缓解模式崩溃问题。 论文题目:Entropy-Maximized Generative Adversarial Network (EM-G…

HashMap与ConcurrentHashMap详解:实现原理、源码分析与最佳实践

引言 在Java编程中,集合框架是最常用的工具之一,而HashMap和ConcurrentHashMap则是其中使用频率最高的两个Map实现。它们都用于存储键值对数据,但在实现机制、性能特点和适用场景上有着显著差异。 HashMap作为单线程环境下的首选Map实现&am…

CSS之动画(奔跑的熊、两面反转盒子、3D导航栏、旋转木马)

一、 2D转换 1.1 transform: translate( ) 转换(transform) 是CSS3中具有颠覆性的特征之一,可以实现元素的位移、旋转、缩放等效果 移动:translate 旋转:rotate 缩放:scale 下图为2D转换的坐标系 回忆…

【笔记】在 MSYS2(MINGW64)中安装 python-maturin 的记录

#工作记录 📌 安装背景 操作系统:MSYS2 MINGW64当前时间:2025年6月1日Python 版本:3.12(通过 pacman 安装)目标工具:maturin —— 用于构建和发布 Rust 编写的 Python 包 🛠️ 安装…

基于微信小程序的垃圾分类系统

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

工作日记之权限校验-token的实战案例

背景说明 我们组负责维护的一个系统,前端界面挂载在其他两个系统上,因为历史遗留原因,同时也挂在公网上,没有登陆功能和用户体系,只要输入网址就能访问,虽然这个系统是给公司内部人员使用,但是…

mysql双主模式下基于keepalived的虚拟ip实现高可用模式搭建

数据库安装和升级和双主配置的操作可以参考我的另一篇文章: 数据库安装和升级和双主配置 1、在两台服务器都下载和安装keepalived 下载: yumdownloader --resolve keepalived 下载后得到: [rootlocalhost keepalivedRpm]# ll 总用量 1896 …