An End-to-End Attention-Based Approach for Learning on Graphs NC 2025

NC 2025 | 一种基于端到端注意力机制的图学习方法

Nature Communications IF=15.7 综合性期刊 1区
在这里插入图片描述
参考:https://mp.weixin.qq.com/s/cZ-d8Sf8wtQ9wfcGOFimCg

今天介绍一篇发表在 Nature Communications 的图学习论文《An end-to-end attention-based approach for learning on graphs》。该工作提出了一种全新范式的图学习方法 ESA(Edge-Set Attention),不再依赖传统的节点消息传递机制,而是将图建模为边集合,并通过纯注意力机制进行信息交互。该方法无需结构先验和位置编码,模型结构简洁却具备强表达力,在70项图与节点任务中大幅超越GNN与图Transformer,展现出优异的性能、鲁棒性与迁移能力,是一项值得关注的图学习基础模型探索工作。

摘要:

近年来,基于 Transformer 的图学习架构迅速兴起,主要受到注意力机制作为高效学习方法的推动,以及希望取代消息传递机制中手工设计算子的需求。然而,也有研究对这些方法在实际效果、可扩展性以及预处理步骤的复杂性方面提出质疑,尤其是相较于那些结构更简单、但在各种基准测试中表现相当的图神经网络(GNNs)。

为了解决这些问题,我们将图视为一组边,提出了一种纯粹基于注意力机制的方法,由编码器和注意力池化模块组成。编码器交替使用掩蔽和标准的自注意力模块,能够有效地学习边的表示,并应对输入图中可能存在的不规范结构。

尽管方法结构简单,我们的方法在70多个节点级和图级任务上(包括具有挑战性的长距离依赖任务)均超越了经过精调的消息传递模型和近期提出的 Transformer 方法。此外,我们在多个任务上取得了当前最先进的性能,涵盖了从分子图到视觉图,以及异质图节点分类等不同类型任务。

在迁移学习任务中,该方法也优于主流的图神经网0络和 Transformer,并且在保持相似性能或表达能力的同时,具备更强的可扩展性。


Introduction

我们从实证角度出发,研究了一种纯基于注意力机制的方法在学习图结构数据有效表示方面的潜力。传统上,图上的学习通常采用“消息传递”(message passing)框架建模,它是0.
一种迭代过程,依赖于消息函数来聚合一个节点邻居的信息,并利用更新函数将编码后的消息整合到节点的输出表示中。生成的图神经网络(GNN)通常会堆叠多个这样的层,以基于节点为根的子树结构学习节点表示,这一过程本质上模仿了一维 Weisfeiler-Lehman(1-WL)图同构判别测试 [wl79, wlneural24]。消息传递的变种已被成功应用于多个领域,如生命科学 [STOKES2020688, Wong2023 等]、电气工程 [Chien2024] 和天气预测 [doi:10.1126/science.adi2336]。

尽管图神经网络(GNN)在实践中取得了广泛成功和广泛应用,但随着时间推移,人们也发现了其若干实际挑战。尽管消息传递框架具有很高的灵活性,设计新的 GNN 层仍是一项具有挑战性的研究问题,通常需要多年才能实现改进,并常常依赖于手工设计的算子。这种情况在不利用其他输入模态(例如原子坐标)的通用图神经网络中尤为明显。例如,主邻域聚合(PNA)被认为是最强大的消息传递层之一,但它是通过一组手动选择的邻域聚合函数构建的,并且需要预先计算数据集的度直方图,还使用了手动设定的度缩放因子。

消息传递机制的本质也带来了一些限制,这些限制在现有文献中占据主导地位。其中一个最突出的例子是 readout 函数,它被用于将节点级特征汇聚成图级表示,并且要求对节点顺序具备置换不变性。 因此,在 GNN 和图 Transformer 中,默认的 readout 函数通常是简单且不可学习的函数,例如 sum(求和)、mean(平均)或 max(最大值)。Wagstaff 等人指出,这种方法存在局限性,简单的 readout 函数可能需要复杂的项嵌入函数,而这些函数难以用标准神经网络学习得到。

此外,图神经网络在“过平滑”(over-smoothing)和“过压缩”(over-squashing)方面也表现出一定的局限性。“过平滑”是指随着网络层数增加,节点表示变得越来越相似,进而降低模型在异质图节点分类任务中的性能。 有研究假设这源于 GNN 表现得像低通滤波器。近期,Di Giovanni 等人通过研究图上的梯度流,进一步表明某些时间连续的 GNN 确实受到低频成分的主导。

相对的,“过锐化”(over-sharpening)也被观察到,尤其是在使用线性图卷积和对称权重的情形中,这是由权重矩阵负特征值所引起的“排斥”效应导致的。而“过压缩”则会在需要远距离节点信息的预测任务中影响性能,这被归因于图结构中的瓶颈边,即当 k 值(k-hop)或网络层数增加时,k 邻域的数量迅速增加。Topping 等人对“过压缩”进行了理论刻画,并引入了图曲率的概念来量化该问题,同时提出了一种图重构算法——随机离散 Ricci 流(stochastic discrete Ricci flow),用于缓解这些瓶颈效应。

针对上述两个问题,研究者提出了一些替代方案,主要是基于消息正则化(message regularisation)的方法,例如 Simple Graph Convolution、PairNorm 和 GraphNorm 等。

然而,目前尚无公认的最佳架构选择可以用来构建有效的深度消息传递神经网络,也无法同时有效地解决这些挑战。此外,与大型语言模型不同,图神经网络中迁移学习、预训练和微调等策略的效果有限或存在争议,因此使用并不广泛。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/89670.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/89670.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【牛客刷题】小红的数字串

文章目录 一、题目描述 1.1 输入描述 1.2 输出描述 1.3 示例1 二、高效解法 2.1 核心算法设计 2.2 算法设计理念 2.2.1 算法流程详解 2.2.2 复杂度分析 2.3 算法优势分析 2.3.1 关键优化点 2.3.2 正确性验证 2.4 边界处理 2.5 总结与扩展 一、题目描述 小红拿到了一个数字串(由…

微算法科技技术创新,将量子图像LSQb算法与量子加密技术相结合,构建更加安全的量子信息隐藏和传输系统

随着信息技术的发展,数据的安全性变得尤为重要。在传统计算模式下,即便采用复杂的加密算法,也难以完全抵御日益增长的网络攻击威胁。量子计算技术的出现为信息安全带来了新的解决方案。然而,量子图像处理领域仍面临复杂度高、效率…

博客摘录「 Springboot入门到精通(超详细文档)」2025年7月4日

1.Spring Boot返回Json数据及数据封装1. Controller 中使用RestController注解即可返回 Json 格式的数据首先看看RestController注解包含了什么东西, ResponseBody 注解是将返回的数据结构转换为 Json 格式Target({ElementType.TYPE}) Retention(RetentionPolicy.RU…

企业安全防护:堡垒机技术解析

目录 一、堡垒机:企业IT运维的安全守门人 1.1 核心价值矩阵 1.2堡垒机典型部署架构 二、堡垒机如何构建安全防线 2.1 四层防护体系 2.2 关键工作流程 三、堡垒机关键技术指标对比表 四、智能堡垒机的发展趋势 一、堡垒机:企业IT运维的安全守门人…

传输层协议 TCP

TCP 协议TCP 全称为 "传输控制协议(Transmission Control Protocol"). 人如其名, 要对数据的传输进行一个详细的控制TCP 协议段格式源/目的端口号: 表示数据是从哪个进程来, 到哪个进程去32 位序号/32 位确认号4 位 TCP 报头长度: 表示该 TCP 头部有多少个 32 位 bit…

RT-Thread的概念和移植

一、操作系统的概念 操作系统(英语:Operating System,缩写:OS)是一组主管并控制计算机操作、运用和运行硬件、软件资源和提供公共服务来组织用户交互的相互关联的系统软件程序。根据运行的环境,操作系统可以…

基于单片机倾角测量仪/角度测量/水平仪

传送门 👉👉👉👉其他作品题目速选一览表 👉👉👉👉其他作品题目功能速览 概述 本设计实现了一种基于单片机的高精度数字倾角测量仪。系统核心由倾角传感器(ADXL345倾…

深度学习 -- 初步认识Torch

深度学习 – 初步认识Torch 文章目录深度学习 -- 初步认识Torch一,认识人工智能1.1 人工智能的本质1.2 人工智能的实现过程二,认识Torch2.1简介2.2 概述2.3 Tensor的创建2.3.1 torch.tensor2.3.2 torch.Tensor三,创建线性和随机张量3.1创建线…

BGP的“聪明选路”遇上了TCP的“路径洁癖”,需人工调和

在路由器R1上有两条外网,WAN1和WAN2。R1上做了域名分流功能,全局网址分到WAN1,指定域名分到WAN2(优先级更高)。症状是用户反馈部分网页无法打开。于是各种检查尝试...... 2天过去了......最终结论是:即使S…

ACWing算法笔记 | 二分

🔍 C 二分查找双模板详解:左闭右开 vs 左闭右闭(二分笔记)二分查找(Binary Search)是一类高效的搜索算法,在 O(log n) 的时间复杂度下查找答案,适用于单调性问题。C STL 的 lower_bo…

centos 新加磁盘分区动态扩容

你不能直接将一个分区分配给/dev/mapper/centos-root,因为这是一个逻辑卷(属于 LVM 系统)。不过,你可以通过以下步骤将/dev/sda3添加到现有卷组或创建新的逻辑卷: 确认磁盘和分区信息 首先检查分区是否已格式化以及是否…

python学智能算法(二十六)|SVM-拉格朗日函数构造

【1】引言 前序学习进程中,已经了解了拉格朗日乘数法求极值的基本原理,也了解了寻找最佳超平面就是寻找最佳分隔距离。 这篇文章的学习目标是:使用拉格朗日乘数法获取最佳的分隔距离。 【2】构造拉格朗日函数 目标函数 首先是目标函数f&a…

智能制造——48页毕马威:汽车营销与研发数字化研究【附全文阅读】

涵盖了汽车行业数字化转型、汽车营销业务能力建设(以会员管理为例)以及汽车研发与创新能力建设等议题。毕马威认为,软件定义汽车已成为汽车行业中的核心议题,并围绕此议题提供了相关方案。在市场观点方面,毕马威与多家…

嵌入式学习-PyTorch(8)-day24

torch.optim 优化器torch.optim 是 PyTorch 中用于优化神经网络参数的模块,里面实现了一系列常用的优化算法,比如 SGD、Adam、RMSprop 等,主要负责根据梯度更新模型的参数。🏗️ 核心组成1. 常用优化器优化器作用典型参数torch.op…

PostgreSQL实战:高效SQL技巧

PostgreSQL PG 在不同领域可能有不同的含义,以下是几种常见的解释: PostgreSQL PostgreSQL(简称 PG)是一种开源的关系型数据库管理系统(RDBMS),支持 SQL 标准并提供了丰富的扩展功能。它广泛应用于企业级应用、Web 服务和数据分析等领域。 PostgreSQL 的详细介绍 Po…

3-大语言模型—理论基础:生成式预训练语言模型GPT(代码“活起来”)

目录 1、GPT的模型结构如图所示 2、介绍GPT自监督预训练、有监督下游任务微调及预训练语言模型 2.1、GPT 自监督预训练 2.1.1、 输入编码:词向量与位置向量的融合 2.1.1.1、 输入序列与词表映射 2.1.1.2、 词向量矩阵与查表操作 3. 位置向量矩阵 4. 词向量与…

【Redis 】看门狗:分布式锁的自动续期

在分布式系统的开发中,保证数据的一致性和避免并发冲突是至关重要的任务。Redis 作为一种广泛使用的内存数据库,提供了实现分布式锁的有效手段。然而,传统的 Redis 分布式锁在设置了过期时间后,如果任务执行时间超过了锁的有效期&…

MYSQL--快照读和当前读及并发 UPDATE 的锁阻塞

快照读和当前读在 MySQL 中,数据读取方式主要分为 快照读 和 当前读,二者的核心区别在于是否依赖 MVCC(多版本并发控制)的历史版本、是否加锁,以及读取的数据版本是否为最新。以下是详细说明:一、快照读&am…

css样式中的选择器和盒子模型

目录 一、行内样式二、内部样式三、外部样式四、结合选择器五、属性选择器六、包含选择器七、子选择器八、兄弟选择器九、选择器组合十、伪元素选择器十一、伪类选择器十二、盒子模型 相关文章 学习标签、属性、选择器和外部加样式积累CSS样式属性:padding、marg…

关于基于lvgl库做的注册登录功能的代码步骤:

以下是完整的文件拆分和代码存放说明,按功能模块化划分,方便工程管理:一、需要创建的文件清单 文件名 作用 类型 main.c 程序入口,初始化硬件和LVGL 源文件 ui.h 声明界面相关函数 头文件 ui.c 实现登录、注册、主页面的UI 源文…