关键词聚类在算法更新优化中的模型评估

NLP系列之embedding模型评估:Relatedness/Analogy/Coherence/Categorizat...

NLP系列之embedding模型评估：Relatedness/Analogy/Coherence/Categorization/Alignment&Uniformity1. Relatedness（相关性）指标思想：微观评估，主要考察在狭小空间中，两个距离最近的词/句是否语义接近。实验方案：从候选词中选择n个target word，用不同模型对target word从候选词中召回rank=1的词，做成选择题，让评测者选择认为与target word语义最接近的词。指标细节：统计每个模型被选的次数，被选越多表示模型在该指标上表现越好。可选择rank=3，rank=5，rank=20等进行评估。2. Analogy（类比）指标思想：偏微观评估，考察embedding模型是否能建模线性关系，如“国王-男人+女人≈王后”。实验方案：事先制作好三元pair对，给出词a，词b，词y，用模型从候选词中找到x，使x与y的关系最接近a与b的关系。最后做成选择题，让评测者选择最符合的选项。指标细节：三元pair对的制作应多元化，包括Comparative形式、Opposite形式、Man-Woman形式等。统计每个模型被选的次数，被选越多表示模型在该指标上表现越好。3. Coherence（一致性）指标思想：偏宏观评估，考察在一个局部里语义相近词的靠近程度。实验方案：给定target word，用模型从候选samples中召回rank=1，rank=2和rank=100的词，共4个词，让评测者选择认为的入侵词。指标细节：模型在Coherence指标上表现好，体现在评测者容易看出入侵词。可统计每个模型每道题入侵词被选择的次数，被选择得越多表明模型在该指标上表现越好。4. Categorization（分类）指标思想：宏观评估，计算聚类后的纯净度。实验方案：若知道候选词的label，可用有监督的聚类评估指标，如rank index。若不知道类别label信息，也可用无监督的聚类评估指标，如轮廓系数。指标细节：若知道候选samples的label和聚类的簇数，可用rank index评估。建议用层次聚类，但可对候选samples进行采样以降低时间复杂度。5. Alignment & Uniformity（对齐度与均匀度）Alignment（对齐度）：指标思想：微观评估，计算语义完全相同的文本对的对齐程度。实验细节：使用公开数据集（如PAWS语序对抗问题匹配数据集），把label=1（语义相同）的文本对拿出来，用模型计算文本对的距离，距离越近表示模型在对齐度上表现越高。Uniformity（均匀度）：指标思想：宏观评估，考察embedding的均匀程度，是否有“层次化”。实验细节：对候选的词求方差，方差越小表示候选词被均匀地铺开在语义空间中，即均匀度越高。指标细节：Alignment高且Uniformity也高的模型是期望的模型。综上所述，embedding模型的评估是一个系统工程，需要从多个维度、使用多种指标进行综合评价。这些评估方法不仅有助于理解模型的性能，还能为模型的优化提供指导。

nginx