语义索引与垃圾内容识别关系的模型评估

京东电商搜索中的语义检索与商品排序

京东电商搜索中的语义检索与商品排序一、语义检索语义检索是京东电商搜索中的重要技术，它解决了传统倒排检索无法召回字面不匹配但语义层面相近的商品的问题。向量检索技术：向量检索通过将query和sku（商品库存单位）映射到统一维度空间，使得相似的商品在空间中距离近，不相近的商品距离较远。在这个空间中，通过计算query和sku的向量距离，可以召回与query语义相近的商品。DPSR算法：京东采用的是DPSR（Deep Personalized and Semantic Retrieval）算法，该算法融合了个性化和搜索语义信息。模型结构为双塔模型，包括query tower和sku tower，分别处理query和sku的特征。Query tower考虑了query tokens、user profile、user history events等特征，sku tower则考虑了title tokens、brand、category、shopid等特征。检索系统架构：离线模型生成sku的embedding，构建QP索引。在线服务使用query tower，加载模型并predict query的embedding。通过快速向量近似检索方法（如PQ算法）返回与query距离近的topK个sku。模型详细设计：Two tower model architecture：双塔模型结构，query和sku分别有一个model tower，通过点积计算打分。Query tower with multi heads：为了丰富query侧的信息，query tower采用multi heads结构，可以捕获query的不同语义、品牌属性和产品属性等。Attention Loss：采用attention loss做模型优化，query的多个embedding与sku embedding计算score。Negative Sampling：使用用户点击数据作为正样本，负样本包括random negatives和batch negatives，通过调整比例来优化召回商品的popularity和相关性。语义检索效果：语义检索上线后提升了用户体验，降低了query改写率，提高了商品转化率。二、商品排序商品排序是根据用户的输入对商品进行打分排序，是电商搜索中的重要环节。传统方法与深度学习：传统方法使用xgboost等基于决策树的方法，但人工特征多且无法从原始特征中学习。深度学习如wide&Deep、DIN等在业界被广泛使用，可以从原始特征中学习。双胞胎网络：京东在商品搜索排序中尝试了双胞胎网络结构。训练数据来自用户搜索日志，将同一个session中用户购买的商品和未购买的商品配对，作为训练集。双胞胎网络有两个共享参数的模块，分别输入用户、查询和商品特征，输出一个分数。特征包括数值型特征、文本特征、用户历史行为和商品、用户id等。个性化升级：在第一版双胞胎模型中，对用户历史行为做sumpooling，但缺乏和搜索商品的交互。为了加强用户交互，升级了模型结构，用候选商品和用户历史商品做attention，将静态的user embedding升级为随query和当前商品变化的user embedding。加入Graph学习方法对id类特征embedding进行pretrain，提高模型离线指标和收敛速度。时效性优化：为了增强排序捕捉变化的能力，提升排序的流动性，从特征时效性、模型时效性、线上预估校准三个方面进行优化。接入商品小时级的点击加购订单等实时信号，训练模型学习实时变化。根据商品全站的点击订单等实时反馈信号，对模型原来的预测分数及时校准。优化训练数据生产流程，推动训练平台升级，提升模型训练速度。三、总结京东电商搜索中的语义检索与商品排序技术通过向量检索、DPSR算法、双胞胎网络等先进方法，提升了用户体验和商品转化率。未来，京东还将继续探索GNN、KG、MMoE等方向，不断优化搜索排序算法，为用户提供更好的购物体验。

nginx