Graph Contrastive Learning with Generative Adversarial Network基于生成对抗网络的图对比学习

1. 什么是图？（Graph）

想象一下社交网络，每个人是一个“点”（节点），他们之间的朋友关系是“线”（边）。这样的点和线组成的结构就是“图”。在计算机科学中，图被用来表示各种复杂关系，比如论文引用网络（论文是节点，引用关系是边）、电商商品推荐（用户和商品是节点，购买记录是边）等等。

2. 图神经网络（GNN）是做什么的？

图神经网络（GNNs）是一种特别的神经网络，它能理解图里的这些点和线，并从中学到每个“点”的特征表示（也叫“嵌入”或“表征”）。有了这些特征表示，我们就可以做很多有用的事情，比如：

节点分类：判断一个点属于哪一类（比如在论文网络中，判断一篇论文属于哪个研究领域）。
链接预测：预测两个点之间未来是否会产生新的连接（比如预测社交网络中两个人是否会成为朋友，或者电商中用户是否会购买某个商品）。

通常，训练GNN需要大量的“标签数据”（也就是我们已经知道正确答案的数据）。但问题是，在现实世界中，这些标签数据往往非常稀缺。

3. 图对比学习（GCL）如何解决“标签稀缺”问题？

为了解决标签数据少的问题，研究人员提出了“图对比学习”（Graph Contrastive Learning，GCL）。它的核心思想是：

数据增强：我们先对原始图做一些小的改动，生成多个“视图”（augmented views）。比如，可以随机删除一些边、增加一些边、或者遮盖一些节点的特征。
学习相似性：GCL的目标是让同一个节点在不同“视图”下的特征表示尽可能相似，而与不同节点的特征表示尽可能不相似。通过这种方式，GCL可以在没有大量标签的情况下，让GNN学习到有用的节点特征。

打个比方：就像你有一张照片，你可以对它进行“数据增强”，比如调亮一点、调暗一点、加个滤镜。对比学习就是让你认出这些不同版本的照片都是“同一张照片”，而与其他照片不一样。通过这种训练，模型就能学会照片的关键特征。

4. 现有GCL方法的不足

现有的GCL方法在生成这些“视图”时，通常是随机地进行，或者根据一些预设规则进行。它们没有充分考虑图本身是如何“演变”的，也没有学习图的内在“分布”。

举个例子：一个图的演变可能遵循某种规律，比如“优先连接”原则（越热门的节点越容易获得新连接）。如果我们在生成新视图时不考虑这些潜在的规律，就可能会错过图中可能存在但尚未被观察到的重要连接（“未见边”）。论文中通过实验发现，如果能适当补充这些“未见边”，可以提升GCL的性能。但要手动选择添加多少新边才能达到最佳效果，却是个“试错”的过程，因为这取决于不同的图数据分布。

5. GACN：论文提出的新方法

为了解决上述问题，这篇论文提出了一个名为

GACN 的新模型，全称是“图生成对抗对比学习网络”（Generative Adversarial Contrastive learning Network for graph representation learning）。

GACN的核心思想是引入生成对抗网络（GANs）来智能地生成高质量的图增强视图，而不是随机生成。

GACN 的组成部分（像一个团队）

GACN 主要由三个核心模块组成，它们协同工作，共同提升图表示学习的效果：

视图生成器（View Generator）:
- 作用：它的任务是生成新的、增强的图视图，特别是要能自动捕获图的特征，并生成可能存在的“未见边”。
- 工作方式：它会学习边的分布，通过“边采样”来生成增强视图。为了让生成的视图更合理，它设计了两种“损失”（可以理解为惩罚机制）：
  - 边数量损失（Edge Count Loss）：确保生成的视图中的边数量在一个合理的范围内，避免过多或过少。
  - 新边损失（New Edge Loss）：惩罚那些与原始图“过于不同”的视图，确保生成的新边不是完全随机的，而是有意义的。
视图判别器（View Discriminator）:
- 作用：它的任务是判断一个图视图是“真实的”（由预定义的数据增强策略生成，比如简单的边丢弃）还是“虚假的”（由视图生成器生成）。
- 工作方式：判别器和生成器进行“对抗”训练（这就是“对抗网络”的精髓）：
  - 生成器努力生成能“骗过”判别器的视图。
  - 判别器努力提高自己分辨“真假”视图的能力。
  - 通过这种“猫捉老鼠”的游戏，生成器会变得越来越好，能生成非常逼真的、高质量的增强视图。
图编码器（Graph Encoder）:
- 作用：这是GACN中实际用来学习节点特征的核心部分。它使用生成器和判别器共同产生的视图来训练，从而学习到更强大、更鲁棒的节点表示。
- 工作方式：它使用两种自我监督学习损失来优化：
  - 图对比损失（Graph Contrastive Loss）：让同一个节点在不同视图下的表示更相似，不同节点的表示更不相似。
  - 贝叶斯个性化排序损失（Bayesian Personalized Ranking (BPR) Loss）：这对于链接预测任务特别有用，它会尝试最大化已连接节点之间的相似度，同时最小化未连接节点之间的相似度。

GACN 的训练过程

这三个模块是联合训练的。这意味着它们不是独立训练后再组合起来，而是同时进行优化，相互促进。生成器、判别器和编码器会顺序且迭代地进行优化。

6. GACN 的主要贡献和优势

首次结合GANs与GCL：GACN是第一个将图生成对抗网络引入图对比学习中，用于学习和生成高质量视图的方法。
自动生成高质量视图：它能够自动捕捉图的特征并生成高质量的增强视图，有效解决了现有GCL方法中视图生成依赖手动选择或领域知识的问题。
性能优越：在多个真实世界数据集上的大量实验表明，GACN在节点分类和链接预测任务上的表现优于其他12种最新的基线方法。
意外发现：GACN在数据增强中生成的视图竟然符合网络中著名的**“优先连接”规则**（Preferential Attachment Rule）。这个规则简单来说就是：在网络中，连接越多的节点越容易获得新的连接。这表明GACN学习到了图数据生成的一些深层规律。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/88625.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/88625.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！