标题策略在知识图谱体系中的策略改进方向

浅谈知识图谱补全中的稀疏性

本文聚焦于知识图谱补全中的稀疏性问题，探讨模型与数据稀疏之间的关系及应对策略。知识图谱补全任务旨在丰富或纠正知识图谱中的信息，包括实体链接预测、关系链接预测及新知识发现。主流补全技术大致分为三类，近年来的进展侧重于整合优势，平衡模型的可解释性和理论性能。稀疏性问题在知识图谱补全中尤为重要，主要表现在数据稀疏和错误数据两个方面。实体间关系不完整，导致部分实体描述不充分，影响算法性能。极端稀疏实体导致知识图谱分隔，影响基于路径的推理。数据稀疏性对嵌入模型学习效果产生负面影响，嵌入学习效果与数据稀疏程度成反比。错误数据的引入进一步降低模型性能。因此，稀疏数据处理成为知识图谱补全的关键。针对稀疏性问题，研究工作尝试通过分而治之的方法改进模型性能。例如，TranSparse通过限制映射矩阵的表达能力，减少过拟合，针对描述较少的实体和关系使用简单模型。DacKGR利用强化学习框架扩展路径的丰富性，通过嵌入模型提供额外的可达路径。TRE工作仅学习关系嵌入，避免实体嵌入学习中的稀疏性问题，通过传递关系的学习提供可解释性。IterE引入公理来扩增数据集，改善模型在稀疏数据上的表现。pLogic系列工作结合了MLN与基于嵌入的方法，通过迭代改进嵌入学习和规则生成，提高模型性能。最后，MCC工作结合预训练模型（如BERT）来辅助编码，利用自然语言的丰富信息增强节点表示。尽管引入预训练模型在理论上有利于丰富知识图谱的语义信息，但在特定数据集（如ATOMIC）上并未达到预期效果。研究发现，BERT在层级和次序相关关系上的表现优于复杂关系，这表明在应用预训练模型时需考虑数据集的特性。

nginx