Graph Data Augmentation for Graph Machine Learning: A Survey

  • Post author:
  • Post category:其他


本文是针对《Graph Data Augmentation for Graph Machine Learning: A Survey》的翻译。



摘要

最近,由于数据增强能够创建额外的训练数据和改进模型泛化,因此人们对图机器学习越来越感兴趣。尽管最近出现了这一热潮,但由于图数据的复杂性,非欧几里德结构带来的挑战,这一领域仍相对缺乏探索,这限制了对其他类型数据的传统增广操作的直接类比。在本文中,我们对图数据增强进行了全面和系统的综述,以结构化的方式总结了文献。我们首先根据它们修改或创建的图数据的组件对图数据扩充操作进行分类。接下来,我们将介绍图数据增强的最新进展,并按其学习目标和方法进行分类。最后,我们概述了当前尚未解决的挑战以及未来研究的方向。总体而言,本文旨在澄清现有文献在图数据增强方面的现状,并推动该领域的额外工作。我们提供了一个GitHub存储库,其中包含一个不断更新的阅读列表。



1. 引言

近年来,数据增强(DA)技术大大提高了数据驱动推理的泛化能力和性能。DA技术通过在不增加基础真值标签的情况下创建现有数据的合理变化来增加训练数据量,并在计算机视觉(CV)和自然语言处理(NLP)等领域得到广泛采用。这些技术使推理引擎能够学习在这些变化中进行概括,并关注噪声中的信号。

近年来,随着图机器学习(GML)方法如图神经网络(GNN)的快速发展,对图数据的数据增强技术的兴趣和需求不断增加。由于图数据的不规则和非欧几里德结构,图数据增强(GDA)技术很难与CV和NLP中使用的DA技术直接类比。此外,GML面临着独特的挑战,如特征数据不完整性、幂律分布带来的结构数据稀疏性、由于昂贵的注释导致的标记数据缺乏以及GNN中消息传递导致的过度平滑。为了应对这些挑战,关于GDA的工作越来越多。GML研究人员针对这些独特的图挑战设计了图特定的增强技术。在图级任务中,GDA技术旨在从输入的训练数据中生成额外的数据,用于使用已知的标签进行训练,以提高泛化能力。在节点级任务中,GDA技术从各种角度增强了GML模型。例如,Rong等人在训练期间随机移除边,以缓解过度平滑问题。赵等人增强了图结构,以促进图的同态性。Kong等人通过对抗性训练修改或添加了节点属性。

本文旨在提高GML社区对这一不断增长的工作领域的敏感性,因为数据增强已经在CV和NLP中引起了广泛关注。随着对这一主题的兴趣和工作不断增加,这是我们撰写此类论文的绝佳时机:(i)对现有GDA技术进行鸟瞰,以及(ii)确定有效激发和定位这一领域兴趣的关键挑战。据我们所知,这是关于图数据增强主题的第一次全面综述。我们希望这项调查可以作为研究人员和实践者的指南,他们是新的或有兴趣研究这一主题。

本文结构如下。第2节给出了GNN和数据增强的背景。它根据图数据的修改成分对GDA技术进行分类。第3节描述了(半)监督GML的GDA技术——我们将其按任务级别划分:节点级任务(第3.1节)、图级任务(3.2节)和边级任务(图3.3节)。第4节介绍了用于自我监督学习目标的GDA技术,即对比学习(第4.1节)和一致性学习(第3.2节)。在这些小节中,我们介绍了按方法分组的GDA技术。最后,第5节讨论了GDA的挑战和未来方向。

在这里插入图片描述



2. 背景



2.1 图神经网络

与基于嵌入查找的早期工作不同,图神经网络(GNN)由于其结合节点特征、自定义聚合和归纳操作的灵活性,在现代基于图的机器学习中得到广泛应用。根据基于谱图理论的卷积的最初想法,许多谱GNN已由多人开发和改进。由于谱GNN通常(昂贵地)在全邻接上运行,基于空间的方法由于其可扩展性和灵活性而变得突出,这些方法执行图卷积和邻域聚合。



2.2 数据增强

数据增强(DA)包括在不直接收集或标记更多数据的情况下增加/生成训练数据的技术。大多数DA技术要么添加现有数据的稍加修改的副本,要么基于现有数据生成合成数据。当训练数据驱动模型时,增强数据充当正则化器并减少过拟合。DA技术通常用于CV和NLP,其中裁剪、翻转和反译等增强操作通常用于机器学习模型训练。在图机器学习中,与网格(例如,图像)和序列(例如,句子)等规则数据不同,图结构由非欧几里德和不规则的节点连通性编码。CV和NLP中经常使用的大多数结构化增广操作无法轻松类比为图数据。因此,如何在图形数据上生成有效的增强数据示例并不明显。



2.3 图数据增强

与CV和NLP的DA技术类似,GDA通过修改或生成创建数据对象。然而,由于图是连接数据,与图像或文本不同,图形机器学习中的数据对象通常是非独立同分布。因此,对于节点级和边级任务,GDA技术修改整个数据集(图),而不是某些数据对象(节点或边)。基于修改或创建的图数据组件,我们定义了四类GDA操作,如下所示。


节点增强

是从图中创建或删除节点的GDA操作。例如,基于混合的方法通过组合两个现有节点来创建新节点。Feng等人提出了DropNode操作,通过屏蔽选定节点的特征来删除节点。


边增强

是通过添加/删除边来修改图连通性的GDA操作。修改可以是确定性的(例如,GDC和Gauger-M都修改了图结构,并使用修改后的图进行训练/推断),也可以是随机的(例如Rong等人提出在每个训练时期随机丢弃边)。


特征增强

是修改或创建原始节点特征的GDA操作。例如,You等人使用了随机屏蔽节点外特征的属性屏蔽;FLAG利用基于梯度的对抗性扰动增强了节点特征。


子图增强

是指在图级操作的GDA操作,如裁剪子图或创建新图。由于子图增强操作通常影响子图中的多个节点,因此它们主要用于图级任务。例如,JOAO使用了子图裁剪;ifMixup通过混合两个图创建了新的图。



3. 用于监督学习的图数据增强技术

在本节中,我们将讨论用于监督图学习的GDA技术。我们根据任务级别(节点、图或边)对GDA技术进行分类。



3.1 节点级任务


边丢弃

边丢弃方法在每个训练时期随机地从图数据中移除一定数量的边。Rong等人首先提出了DropEdge,它以类似于Dropout的方式,在每个轮回中随机丢弃一部分固定的边。通过在每个训练时期显示GNN模型图的不同部分,DropEdge显著提高了模型的泛化能力,并缓解了GNN的过度平滑问题,特别是对于深度GNN。虽然DropEdge有效地增强了边,但它也经常因删除任务相关信号和破坏信息图结构而受到指责。

在DropEdge之后,Zheng等人提出了NeuralParse,它利用基于MLP的图稀疏化模型,学习仅删除潜在的任务无关边。图稀疏化模型是监督的与GNN一起训练节点分类损失。PTDNet进一步应用核范数正则化损失,通过图稀疏化模型对修改后的图施加低秩约束。Gao等人提出了TADropEdge,该算法利用图频谱生成表示图连通性边缘临界性的边缘权重。TADropEdge使用边权重作为概率来丢弃边缘。

除了节点分类之外,Spinelli等人提出了FairDrop用于公平图表示学习的任务,该方法有偏见地删除了具有敏感属性同态掩码的边,以防止不公平。


图扩散

Klicpera等人首先提出了广义图扩散,它建模了图的“未来”状态,其中信号更加分散。通过利用常用的图扩散,如个性化PageRank(PPR)或热核图稀疏化,GDC生成观察到的图的扩散版本。生成的图然后用于训练和推断。虽然基于消息传递的GNN只能在每一层聚合一跳信息,但GDC允许GNN从多跳信息中学习,而无需专门重新设计模型。

为了进一步利用不同图扩散给出的信息,MV-GCN使用PPR和热核生成两个互补视图,并从创建的视图和原始图中学习。MV-GCN使用一致性正则化损失来减少从三个视图学习到的表示的分布距离。


结构预测

基于预测的GDA技术更新图结构以增强图中的任务相关信息。例如,赵等人展示了图结构同态性与节点分类性能之间的相关性。然后,他们提出了GAug-M和GAug-O来通过神经连接预测来更新图结构。与GDC类似,GAug-M确定性地修改图结构,并使用更新的图进行训练和推断。为了允许对图进行诱导学习,GAug-O从每个训练时期的学习概率中对图结构进行采样。Chen等人还提出了根据节点分类预测迭代添加/删除边的AdaEdge。在每次迭代中,AdaEdge都会在预测为具有高置信度的同一类的节点之间添加边,反之亦然。Pro-GNN利用对低秩属性和特征平滑度的约束来更新图结构。

MH-Aug创建了一个“明确的”目标分布,具有受控的强度和多样性,以对增强图进行采样。由于从复杂目标分布中采样是不可行的,MH-Aug采用Metropolis-Hastings算法来获得增强样本。

Zhao等人提出Eland用于时间戳用户项二分图的异常检测任务。Eland首先将用户项目图转换为用户的动作序列,并采用seq2seq模型进行未来动作预测。预测的用户动作被添加回图中以生成增强的图数据。由于增强图包含更丰富的用户行为信息,Eland增强了异常检测性能,并在早期阶段检测异常。


特征增强

对于(半)监督图学习,特征增强方法通常试图通过学习额外的任务相关特征来提高节点特征质量。FLAG利用对抗性训练,通过基于梯度的对抗性扰动迭代增强节点特征。作为一种免费的训练方法,FLAG提高了GNN在节点分类、链路预测和图分类等任务上的性能。LA-GNN通过基于局部邻域的条件分布生成额外的节点特征来增强节点表示的局部性。生成的特征与原始节点特征一起直接使用。类似地,SR+DR使用DeepWalk生成拓扑特征,并使用带有拓扑正则化的双GNN模型来联合训练原始和拓扑特征。


Mixup

Mixup合并两幅图像,以生成带有加权标签的新图像。鉴于图的依赖性和非欧几里德结构,对图数据的混合的直接模拟并不明显。Verma等人提出了GraphMix,通过全连接的网络增强了GNN的训练。由于GraphMix更像是一种正则化方法,而不是图上的混合模拟,Wang等人提出了图混合,该方法使用两分支图卷积模块模拟混合。给定一对节点,Graph Mixup混合它们的原始特征,将它们喂到两个分支GNN层,并混合每个层的隐藏表示。混合节点的特征和隐藏状态可以避免重新组装两个节点的局部邻域。


AutoML

随着AutoML的快速发展,人们提出了自动图学习方法来自动化GNN架构的设计以及GDA操作的选择。Sun等人提出了节点分类任务的AutoGL。通过训练过程,AutoGL学习了GDA操作、GNN架构和超参数的最佳组合。AutoGL的搜索空间包括通过随机掩蔽和GAug-M实现的四种GDA操作:删除特征、删除节点、添加边和删除边。



3.2 图级任务

对于图级任务,其中数据对象是独立的图,CV和NLP中的某些增强操作可以转换为图数据。例如,与图像裁剪类似,GraphCrop从每个给定的图对象中裁剪连续的子图。GraphCrop采用基于图扩散的节点中心策略来保持原始图的拓扑特征。

M-Evolve利用主题来增强图数据。M-Evolve首先在图中找到并选择目标基序,然后根据使用资源分配指数计算的采样权重在所选基序中添加或删除边。类似地,MoCL利用生物医学领域知识来增强子结构(如官能团)上的分子图。MoCL从每个分子图中选择一个子结构,并将其替换为另一个子结构。


Mixup

还提出了几种用于图分类的混合方法。例如,上述图混合也适用于图分类。GraphMixup混合了这对图的潜在表示。另一方面,ifMixup直接将混合应用于图数据,而不是潜在空间。由于这对图是不规则的,并且两个图中的节点不对齐,ifMixup任意为每个图中的结点分配索引,并根据索引匹配结点。在ifMixup之后,图透明也在数据空间中混合图形。与混合过程中随机匹配节点的ifMixup不同,Graph Transparent使用子结构作为混合单元来保留局部结构信息。图透明使用节点显著性信息从每个图中选择一个有意义的子结构,其中显著性信息定义为分类损失梯度的



l

2

l_2







l










2





















范数。



3.3 边级任务

我们注意到,很少有GDA技术被用于边缘级任务,如链路预测。赵等人提出了一种反事实数据增强方法CFLP。CFLP提出了一个反事实的问题:“如果图结构与观察不同,链接是否仍然存在?”为了回答这个问题,Zhao等人提出了与问题中未观察到的结果近似的反事实联系。CFLP使用给定的训练数据和生成的反事实链路(作为增强数据)来训练链路预测模型。

Wang等人提出了时间图上链路预测的MeTA。MeTA包含一个多级模块,在不同级别上处理不同大小的增强图。MeTA对时间图采用了三种增强操作:通过修改边上时间戳来扰动时间、通过与DropEdge类似方法删除边,以及添加具有不同时间戳的现有重复边的边。在训练和预测过程中,MeTA执行消息跨级别传递,以提供自适应增强的输入图。



4. 用于自监督学习目标的图数据增强技术

在本节中,我们将介绍用于自我监督学习目标的GDA技术,即对比学习和一致性学习。自监督目标通过最大化学习表示的(非)一致性来学习对噪声和扰动鲁棒的表示。因此,与上述旨在增强数据中任务相关信息的GDA技术不同,用于自监督学习的大多数GDA技术是旨在破坏给定图形数据的随机增强。此外,大多数自监督图表示学习方法倾向于使用几个简单的GDA操作的组合。



4.1 对比学习

近年来,随着对比学习的快速发展,人们提出了几种图对比学习方法。对比学习旨在最大化不同对象的表示之间的距离,并最小化从同一对象的不同视角学习到的表示之间距离。数据增强通常用于生成用于对比学习的不同视图。


变体

为了有效地生成用于图对比学习的不同增强数据,最常用的GDA操作是基于损坏的操作。例如,DGI采用了特征损坏,其中它在原始节点特征矩阵X上进行按行洗牌。DGI的特征损坏也可以被视为随机交换图中的节点。

GraphCL和InfoGCL采用了四种GDA操作:随机删除节点及其边的节点删除操作、随机添加或删除边的边缘扰动操作、随机屏蔽某些节点属性的属性屏蔽操作,以及对连接子图进行采样的子图采样。与GraphCL中使用的子图采样操作类似,SUBGCON使用子图采样器对增强子图进行采样。GRACE和BGRL仅使用基本的随机边删除和属性掩码来创建图的不同视图。


图扩散

作为一种有效的GDA操作,可以自然地创建给定图的“未来视图”,图扩散用于图对比学习。MVGRL采用GDC提出的扩散图作为第二种视图。有趣的是,Hassani和Khasahmadi表明,使用三个视图(原始图、PPR和热核的扩散图)不会比使用两个视图(初始图和一个扩散图)产生更好的性能,并得出结论“增加视图数量不会提高性能”。然而,Yuan等人后来提出了一种采用类似对比学习框架的MV-CGC,该算法具有三种视图:原始图、扩散图和他们提出的特征相似性视图。从经验上看,MV-CGC学习的节点表示在节点分类上优于MVGRL学习的。


自动GDA

如上所述,大多数对比学习方法采用几个简单的增强操作的组合。在操作及其幅度之间的选择显著增加了超参数的数量。因此,开发了能够学习增强策略的自动化解决方案。

JOAO将GraphCL的GDA选择建模为一个双层优化问题,其中外层学习增强策略,内层学习具有给定增强的图表示。AD-GCL利用对抗图增强策略来避免随机增强带来的冗余信息。LG2AR学习一个概率策略,该策略包含不同增强操作的一组分布,并在每个训练时期从策略中采样增强策略。GCA设计了基于节点中心性测度的自适应增强。与上述为数据集找到最佳增强策略的方法不同,GCA的自适应增强根据节点的重要性对其进行不同的增强。类似地,FairAug利用自适应增强进行公平图表示学习。



4.2 一致性学习

与对比学习类似,一致性学习从不同的数据视图中学习表示,并最大化它们的一致性。然而,与数据对象之间比较的对比学习不同,一致性损失通过KL散度等度量来比较一批表示的分布。因此,一致性损失本身很少使用,但在半监督学习中经常与监督损失一起使用。例如,NodeAug使用了三种基于局部结构的增强操作:替换属性、删除边和添加边。NodeAug最小化从原始图和增强图中学习的节点表示之间的KL散度。GRAND创建了多个不同的具有节点删除和特征掩蔽的增强图。然后,一致性损失使从增强图学习的表示的距离最小化。



5. 挑战与方向



5.1 自动化与领域自适应

由于GDA是一个相对较新的主题,许多GDA技术(如表1所示)已经被提出并独立使用。然而,理想的GDA解决方案必须在部署之前选择和调整许多数据增强技术。在CV中观察到这种挑战。例如,对于图像数据,存在超过十个独立的增强操作,每个操作都有自己的幅度参数。CV研究人员随后开发了自动增强解决方案,以自适应地定制每个(一批)对象的增强策略。尽管有几种用于图形对比学习的自动增广解决方案,但仍然需要用于(半)监督图形学习的自动增强方法。此外,自动增强解决方案应该是可迁移的。也就是说,域自适应是自动GDA技术的期望特征。当在一个数据集上训练的自动增强方法只能在该数据集上使用时,该方法只会自动执行超参数训练过程,并失去通用性。因此,对于理想的自动化GDA方法,它应该能够在一个数据集上进行训练,并用于多个数据集,理想情况下是跨域的。可以跨域迁移的自动GDA方法仍然缺失。



5.2 大规模图的扩展性

许多GDA技术在增强过程中使用全局结构信息,因为通过消息传递GNN很难学习。然而,学习全局信息通常需要从整个图中学习,这可能导致可伸缩性问题。对于节点级任务,可伸缩性问题尤其严重,因为在节点级任务中,图大小可能非常大。虽然复杂的GDA技术带来了显著的性能改进,但这些方法的可扩展性仍然值得关注。例如,为了实现端到端训练,GAug-O需要在整个邻接矩阵上进行反向传播,从而导致对GPU卡上内存的额外需求。为了提高DropEdge的性能,TADropEdge要求在训练GNN之前预先计算图中每条边的分数。因此,为了适用于实际应用,效率也是GDA技术的必要条件。如前一小节所述,结合快速和简单增强操作的自动化解决方案可能是解决方案。然而,如何设计一个高效的自动化GDA框架仍然是一个开放的问题。



5.3 泛化与正则化

对于某些类型的图数据,如分子图,最常用的GDA操作将改变图的基本语义。例如,从阿司匹林的苯环上删除一个碳原子会破坏芳香族系统,并产生一个烯烃链,这是一种完全不同的化合物。因此,在这种情况下,应使用基于域的正则化。到目前为止,只有Sun等人提出了一种在增强分子图时考虑局部子结构带来的语义信息的MoCL,这使得GDA的特定领域正则化仍处于探索阶段。此外,作为一种泛化改进技术,GDA应该自然适用于分布外(OOD)数据。OOD图学习的GDA技术仍然缺失。



5.4 理论基础

GDA是一种强大的技术,可以在不需要额外标记工作或复杂模型的情况下提高图上数据驱动推理的性能。GDA还因改善图学习的泛化和缓解GNN的过度平滑问题而闻名。然而,对于GDA如何以及为什么实现这些目标,特别是对于(半)监督学习,人们几乎没有严格的理解。尽管有几项工作分析了图同态性与分类性能或过平滑问题之间的关系,但我们面临着缺乏关于这些关系的严格证明或理论界限。

最近,一些工作提供了CV中数据增强的理论见解。例如,Wu等人从理论上分析了数据增强对图像的泛化效应。他们从偏差和方差中解释了数据增强的效果,其中数据增强为模型添加了新信息,同时也起到了正则化的作用。由于图数据的不规则性,这些理论分析不能直接用于GDA。除了泛化的角度,最近的几项工作研究了GNN的认证鲁棒性。改进的稳健性边界将是GDA技术的期望属性。最近关于GNN拓扑瓶颈和过度挤压的研究为基于边的GDA技术提供了理论指导。图上的反事实增强方法,如CFLP,也可以从因果关系的角度分析GDA。



6. 结论

在本文中,我们对图机器学习的数据增强技术进行了全面和结构化的综述。我们对现有的GDA技术进行了分类,介绍了基于其方法的最新GDA方法,并概述了当前的挑战以及未来研究的方向。我们表明,在GDA方面还有进一步探索的空间。总之,我们希望本文能为GML研究者和实践者研究和使用GDA技术提供指导,并激发对这一主题的更多兴趣和工作。



版权声明:本文为c_cpp_csharp原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。