关键词聚类在算法更新优化中的模型评估

NLP系列之embedding模型评估:Relatedness/Analogy/Coherence/Categorizat...

NLP系列之embedding模型评估:Relatedness/Analogy/Coherence/Categorization/Alignment&Uniformity1. Relatedness(相关性)指标思想:微观评估,主要考察在狭小空间中,两个距离最近的词/句是否语义接近。实验方案:从候选词中选择n个target word,用不同模型对target word从候选词中召回rank=1的词,做成选择题,让评测者选择认为与target word语义最接近的词。指标细节:统计每个模型被选的次数,被选越多表示模型在该指标上表现越好。可选择rank=3,rank=5,rank=20等进行评估。2. Analogy(类比)指标思想:偏微观评估,考察embedding模型是否能建模线性关系,如“国王-男人+女人≈王后”。实验方案:事先制作好三元pair对,给出词a,词b,词y,用模型从候选词中找到x,使x与y的关系最接近a与b的关系。最后做成选择题,让评测者选择最符合的选项。指标细节:三元pair对的制作应多元化,包括Comparative形式、Opposite形式、Man-Woman形式等。统计每个模型被选的次数,被选越多表示模型在该指标上表现越好。3. Coherence(一致性)指标思想:偏宏观评估,考察在一个局部里语义相近词的靠近程度。实验方案:给定target word,用模型从候选samples中召回rank=1,rank=2和rank=100的词,共4个词,让评测者选择认为的入侵词。指标细节:模型在Coherence指标上表现好,体现在评测者容易看出入侵词。可统计每个模型每道题入侵词被选择的次数,被选择得越多表明模型在该指标上表现越好。4. Categorization(分类)指标思想:宏观评估,计算聚类后的纯净度。实验方案:若知道候选词的label,可用有监督的聚类评估指标,如rank index。若不知道类别label信息,也可用无监督的聚类评估指标,如轮廓系数。指标细节:若知道候选samples的label和聚类的簇数,可用rank index评估。建议用层次聚类,但可对候选samples进行采样以降低时间复杂度。5. Alignment & Uniformity(对齐度与均匀度)Alignment(对齐度):指标思想:微观评估,计算语义完全相同的文本对的对齐程度。实验细节:使用公开数据集(如PAWS语序对抗问题匹配数据集),把label=1(语义相同)的文本对拿出来,用模型计算文本对的距离,距离越近表示模型在对齐度上表现越高。Uniformity(均匀度):指标思想:宏观评估,考察embedding的均匀程度,是否有“层次化”。实验细节:对候选的词求方差,方差越小表示候选词被均匀地铺开在语义空间中,即均匀度越高。指标细节:Alignment高且Uniformity也高的模型是期望的模型。综上所述,embedding模型的评估是一个系统工程,需要从多个维度、使用多种指标进行综合评价。这些评估方法不仅有助于理解模型的性能,还能为模型的优化提供指导。


nginx