TPLinker笔记——一些概念的个人理解relation overlapping(关系重叠)理解:关系重叠是指在文本中,一个实体可能同时参与多个关系,或者多个关系可能共享某些实体。这种重叠现象增加了关系抽取的复杂性,因为传统的关系抽取方法往往假设每个实体只参与一个关系,或者每个关系只涉及一对独立的实体。关系重叠主要包括三种类型:Normal(正常关系,无重叠)、SEO(实体重叠,即多个关系共享同一个实体)、EPO(实体对重叠,即多个关系共享同一对实体但关系类型不同)。exposure bias(曝光偏差)理解:曝光偏差是指在训练过程中,模型在每个时间步接受的是上一时刻的真实值和当前输入,而在推理(或测试)过程中,模型则需要接受上一时刻的预测值和当前输入。这种训练和推理条件的不一致可能导致模型在推理时产生偏差,因为模型在训练时从未经历过使用自己的预测作为后续输入的情况。这种偏差类似于拍照时取景器里看到的和按下快门定格的图像之间的差异。token pair linking(令牌对链接)理解:令牌对链接是指在关系抽取任务中,通过识别文本中实体之间的令牌(或单词)对关系,来构建实体之间的关系。在TPLinker等模型中,这通常是通过构建一个N*N的矩阵来实现的,其中N是文本中令牌的数量。矩阵中的每个元素都表示一对令牌之间是否存在某种关系。这种方法可以有效地处理关系重叠问题,因为它允许一个实体同时参与多个关系,并且允许多个关系共享某些实体。handshaking tagging schema(握手式标注框架)理解:握手式标注框架是一种用于关系抽取的标注方法,它通过将文本中的实体和关系以矩阵或平铺形式进行标注,来捕捉实体之间的关系。在矩阵形式中,每个元素都表示一对令牌之间是否存在关系。而在平铺形式中,则通过箭头和标签来表示实体之间的头尾关系和关系方向。这种方法被称为“握手式”是因为它允许实体之间通过标注来“握手”,从而建立关系。握手式标注框架可以完美覆盖Normal、SEO、EPO等多种关系重叠类型,但代价是增加了空间复杂度。具体说明:矩阵形式:将长度为N的文本构成N*N矩阵,标注了令牌的两两关系。但矩阵形式不能标注EPO重叠的问题。平铺形式:使多关系标注更加方便,解决了矩阵形式不能标注EPO重叠的问题。平铺形式包括SH->OH(主语头到宾语头)、ST->OT(主语尾到宾语尾)、EH->ET(实体头到实体尾,实体包括主语和宾语)等标注方式。标注值根据箭头指向是否沿着语序方向来确定,如果沿着语序方向则tag值为1,逆向为2。优势:握手式标注框架能够同时处理多种关系重叠类型,提高了关系抽取的准确性和灵活性。通过矩阵或平铺形式的标注,可以直观地展示实体之间的关系,便于理解和分析。代价:增加了空间复杂度,因为需要存储N*N的矩阵或大量的平铺标注信息。解码过程可能相对复杂,需要设计有效的算法来提取三元组。综上所述,TPLinker通过握手式标注框架和同步解码器,实现了对关系重叠问题的有效处理。这种方法不仅提高了关系抽取的准确性,还为后续的研究提供了新的思路和方法。



































