知识图谱优化对比URL规范化规则的数据采样方法

TASLP | 从判别到生成:基于对比学习的生成式知识抽取方法

TASLP | 从判别到生成:基于对比学习的生成式知识抽取方法随着计算能力的提升和神经网络的发展,大规模预训练语言模型在语义理解方面取得了显著进步。然而,这些模型在处理事实性知识时仍存在不足,常犯基本的事实性错误。为了弥补这一缺陷,“数据”+“知识”成为解决这一挑战的技术思路,其中知识抽取尤为关键。本文介绍了一篇发表在IEEE/ACM Transactions on Audio, Speech, and Language Processing(中科院一区)的论文——Contrastive Information Extraction with Generative Transformer,该论文提出了一种基于对比学习的生成式信息抽取方法。一、引言在医疗等具体业务场景中,结构化的领域知识对于实现精准的复杂问答和细粒度文本理解至关重要。高精度的领域知识图谱是智能搜索、问答、推荐等业务场景的基石。然而,如何有效地抽取知识,以及知识抽取面临的挑战,是本文旨在回答的问题。二、知识抽取的定义与挑战知识抽取(又称信息抽取)是从自然语言文本中抽取出特定的事实信息,这些信息通常包括实体(Entity)、关系(Relation)、事件(Event)。知识抽取技术主要分为实体识别、关系抽取、事件抽取。传统的知识抽取方法包括基于管道的方法和基于端到端的方法。基于管道的方法通常面临误差传播问题,而基于端到端模型的方法则采用联合训练的判别方式进行知识抽取。尽管端到端生成的方法具有模型简洁和实体关系深度交互的特点,但仍面临以下挑战:无法捕获长期依赖关系,导致重要信息丢失。缺乏生成符合事实多元组的能力,可能生成不忠实于输入文本的知识序列。无法同时处理实体关系三元组和事件多元组。三、方法:基于对比学习的生成式信息抽取模型(CGT)为了解决上述问题,论文提出了基于对比学习的生成式信息抽取模型(CGT)。该模型基于一个共享的Transformer模块,采用编码器-解码器的生成式N元组抽取和对比学习的多任务学习模式。具体方法包括:使用分隔符和部分因果掩码机制将输入序列与目标序列连接起来,以区分编码器-解码器表示形式。提出一个N元组对比优化目标来约束模型,其中真实的N元组作为正样本,随机采样的N元组作为负样本。引入分批的动态注意掩码机制,以动态选择不同的掩码机制并优化任务。采用N元组校准算法,在推理阶段过滤掉违背事实的N元组。模型架构图:四、实验与结果论文在五个基准数据集(NYT、WebNLG、MIE、ACE-2005、MUC-4)上进行了实验,其中MIE是医学领域的大规模中文对话信息提取数据集。实验结果表明,对比学习的引入显著提升了模型效果。然而,与基于分类的模型相比,生成式模型具有较大的搜索空间,模型优化较为困难,因此在某些数据集上仍然无法取得最优效果。实验结果图:五、小结与展望本文提出了一种基于对比学习的生成式信息抽取方法,该方法在多个数据集上取得了较好的效果。随着预训练模型的不断发展,端到端生成的知识抽取方法越来越受到学者们的关注。未来,将深入研究复杂长文本和低资源情景下的生成式知识获取,以进一步提升知识抽取的准确性和效率。本文介绍的基于对比学习的生成式信息抽取方法,为解决知识抽取中的挑战提供了新的思路。通过引入对比学习和生成式模型,该方法在多个数据集上取得了显著的效果提升。未来,随着研究的深入,相信该方法将在更多领域得到广泛应用。


nginx