图表示学习在处理图数据时,常常遇到数据质量不高的问题。数据增强作为一种提升数据质量的技术,在图领域也受到了关注。本文对现有的图数据增强技术进行了总结,首先按照细粒度的图元素进行分类,并讨论了技术细节,最后介绍了评价指标。 图作为一种重要的数据结构,广泛应用于建模复杂的交互,如分子结构、引用关系、社交关系等,已成为关系数据挖掘的基础技术之一。然而,图表示学习依赖于大量高质量的数据来建模潜在的图信息,而在现实场景中,获取数据标签的代价较高,这阻碍了基于监督或半监督图学习的效率。此外,现实场景中的复杂交互往往存在信息丢失、冗余或错误等问题。这些问题导致图表示学习的效果不佳。 受视觉和自然语言领域中数据增强的成功,图领域的数据增强也解决了一些低质量数据带来的问题。数据增强可以通过简单修改或生成新的数据来增加有限的训练数据,降低机器学习训练阶段过拟合的风险。然而,与图像、文本等数据不同,图数据是非欧特性和离散的,其语义和拓扑结构相关,使得难以将现有的数据增强技术迁移到图数据上。尽管最近在图扩充技术方面取得了一些进展,但这一领域仍然不够成熟,缺乏系统性分类、一般化定义、科学的评价体系和明确的应用总结。这使得研究人员难以对图数据增强有一个清晰和归纳的理解,也无法在图学习中很好地使用或设计图数据增强技术。 现有的数据增强综述很少给出一般化的定义,往往将数据增强作为对比学习的一个模块来介绍,缺乏综合的评价系统和应用场景等内容。本文主要总结了现有的图数据增强方法,并按照细粒度图元素进行分类;泛化定义,讨论技术细节;总结可用的评价指标和应用场景。 数据增强可以在不收集或标记更多数据的情况下扩充训练数据集,通过简单的修改或生成新的数据来丰富数据分布。数据增强可以作为一个正则器帮助机器学习降低训练阶段过拟合的风险。在图数据领域,数据增强可以视作图上的一个转换函数,由于数据的非欧特性和语义与拓扑之间的依赖,很难直接将现有的数据增强技术迁移到图数据中或设计高效的图增强方法。 图数据增强可以在不同粒度的图元素上进行,如图特征、拓扑结构或图标签等。进行数据增强的图元素一般依赖于图的累心或具体任务。根据不同的图任务级别,数据增强算法可分为不同的类别。根据增强方式与图模型的依赖程度,图数据增强方式可分为不同的类别。根据增强机制,图数据增强技术可分为不同的类别。 图上的特征在属性图和加权图中常见,可以在不同的结构元素中获得,如点云中的节点包含位置特征;知识图谱中的边包含关系信息;分子图包含全局的类别信息。更一般化,图表示学习学到的图嵌入或隐层特征都可以视作图特征。现有的特征级增强主要包括feature shuffling和feature masking。节点级增强主要是操作节点来生成数据多样性,广泛用于节点级任务和图级任务。边级增强主要侧重于图的连接结构,现存的边级增强方式主要包括edge removing、edge addition、edge rewiring。子图级增强一般是混合方式,子图包含多种图元素。主要方法包括子图采样和子图替代。图级增强主要是整图级处理,分为图传播和图插入。标签增强分为伪标记法pseudo-labeling和sharpening-labeling。



































