MGDSPR:淘宝搜索的多粒度深度语义召回模型MGDSPR(Multi-Granularity Deep Semantic Product Retrieval)是淘宝搜索场景中应用的一种召回模型,旨在通过多粒度深度语义理解来提升搜索结果的准确性和相关性。以下是对该模型的详细解析:一、模型概览MGDSPR模型的整体框架为双塔结构,包括左塔和右塔。左塔主要用于建模查询(query)和用户信号,而右塔则用于建模商品(item)。左右塔顶层的向量通过相似度度量(如内积)来计算损失函数,从而优化模型。二、用户塔建模左塔用户的设计思路是将一个大塔拆分为多个小塔,并通过attention机制进行融合。具体地,用户大塔被拆分为query塔和用户历史行为序列塔。query塔query塔由六个粒度的语义表达进行concat合成,包括:q1_gram:unigram单字粒度的表征,通过mean-pooling得到。q2_gram:2-gram的表征,同样通过mean-pooling得到。qseg:词粒度的表征,通过mean-pooling得到。qseg_seg:使用transformer对词序列进行编码后,对最后一层隐层向量进行mean pooling。qhis_seg:以当前搜索query为Q,历史搜索词序列为KV,通过attention机制得到权重后带权融合。qmix:上述五种表征向量进行element wise相加得到的混合表达。用户历史item塔用户历史item塔进一步拆分为实时、短期和长期三部分:Hreal, Hshort, Hlong。Hreal:对用户的实时点击行为序列采用LSTM捕捉用户行为的演变,得到LSTM的隐层输出。经过多头自注意力后,加入一个全零向量,再以当前搜索query为Q,实时点击序列为KV,通过attention机制得到权重后带权融合。Hshort:与实时行为序列表征相比,少了LSTM步骤,其他处理相同。Hlong:使用四种属性序列来描述一个月内用户的长期行为序列,包括item ID序列、shop ID序列、叶子节点类目ID、品牌ID序列。每种属性行为使用用户的点击、购买、收藏行为拼接组成(同样添加了零向量)。再以query为Q,长期行为序列为KV,通过attention机制得到权重后带权融合。最后通过sum pooling融合为Hlong。三、用户塔建模的几个注意点零向量的作用:在对用户历史item进行attention时增加零向量的作用是,当用户历史行为与当前搜索query完全不相关时,模型会给零向量更大的attention weight,避免强制关注到至少一个行为,这在历史行为和当前query都无关时,可以减少噪声。灵活运用attention筛选个性化信号:在引入用户侧的个性化信号时(如历史搜索词和历史点击序列),都以当前搜索query为Q做attention,以筛选出与当前query相关的个性化信号,同时抑制不相关的信号。四、item塔建模右塔item的建模相对简单,输入只包含item id和item title。item title的分词embedding经过avg pooling后,再经过一个隐层映射,与item id embedding直接相加,得到item的最终表达Hitem。五、损失函数设计MGDSPR模型的损失函数在常用的sampled softmax交叉熵基础上,引入了温度系数进行噪声平滑,以及难负样本。噪声平滑:引入温度系数进行平滑操作可以降低模型对某些item的置信度,减少由拟合点击样本带来的相关性差的影响,从而提升模型召回结果的相关性。难负样本:使用全局随机负样本相比于只使用未点击负样本,可以明显提升模型召回的搜索相关性。在此基础上,进一步引入难负样本来进一步提升搜索召回的相关性。难负样本的生成方法为在线插值,即对正样本和随机负样本中的高分样本进行融合得到难样本作为负例。六、小结MGDSPR模型在电商搜索领域具有显著的优势,主要体现在以下几个方面:多粒度表达:通过不同层面的多粒度语义查询矩阵表示,充分挖掘了用户搜索query的语义信息。个性化信号筛选:通过attention机制筛选与当前搜索query相关的个性化信号,避免了在引入个性化时损害相关性。损失函数优化:引入温度系数进行噪声平滑和难负样本,进一步提升了模型召回结果的相关性。综上所述,MGDSPR模型是淘宝搜索场景中一种高效且准确的召回模型,通过多粒度深度语义理解,为用户提供了更加精准的搜索结果。



































