本文聚焦于知识图谱补全中的稀疏性问题,探讨模型与数据稀疏之间的关系及应对策略。知识图谱补全任务旨在丰富或纠正知识图谱中的信息,包括实体链接预测、关系链接预测及新知识发现。 主流补全技术大致分为三类,近年来的进展侧重于整合优势,平衡模型的可解释性和理论性能。稀疏性问题在知识图谱补全中尤为重要,主要表现在数据稀疏和错误数据两个方面。实体间关系不完整,导致部分实体描述不充分,影响算法性能。极端稀疏实体导致知识图谱分隔,影响基于路径的推理。数据稀疏性对嵌入模型学习效果产生负面影响,嵌入学习效果与数据稀疏程度成反比。错误数据的引入进一步降低模型性能。因此,稀疏数据处理成为知识图谱补全的关键。 针对稀疏性问题,研究工作尝试通过分而治之的方法改进模型性能。例如,TranSparse通过限制映射矩阵的表达能力,减少过拟合,针对描述较少的实体和关系使用简单模型。DacKGR利用强化学习框架扩展路径的丰富性,通过嵌入模型提供额外的可达路径。TRE工作仅学习关系嵌入,避免实体嵌入学习中的稀疏性问题,通过传递关系的学习提供可解释性。IterE引入公理来扩增数据集,改善模型在稀疏数据上的表现。pLogic系列工作结合了MLN与基于嵌入的方法,通过迭代改进嵌入学习和规则生成,提高模型性能。 最后,MCC工作结合预训练模型(如BERT)来辅助编码,利用自然语言的丰富信息增强节点表示。尽管引入预训练模型在理论上有利于丰富知识图谱的语义信息,但在特定数据集(如ATOMIC)上并未达到预期效果。研究发现,BERT在层级和次序相关关系上的表现优于复杂关系,这表明在应用预训练模型时需考虑数据集的特性。



































