算法调优影响视频索引算法的核心页面体验优化

Hulu个性化视频搜索算法 - 召回篇

Hulu个性化视频搜索算法 - 召回篇Hulu作为美国最受欢迎的视频网站之一，其内容以美剧和电影为主，搜索是其内容发现的重要渠道。Hulu的搜索算法设计精巧，尤其在召回模块上，结合了关键词召回和向量召回两类方法，以实现高效且个性化的内容推荐。一、关键词召回关键词召回是基本的召回方法，在深度学习方法普遍应用前占据主导地位。该方法主要依赖于query扩展、query改写、关键词提取以及词权重计算等技术。query与文档的相关性计算：采用BM25算法来区分不同文档间的相对重要程度。BM25算法的核心在于计算query中每个term与文档的相关性，并将其求和得到query与文档的整体相关性。具体计算公式涉及tf(tq, d)（文档d中出现tq的次数）、|d|（文档d的长度）、avgdl（文档全库的平均长度）以及需要调整的超参数k1和b。其中，k1的通常取值范围是[1.2, 2.0]，b的默认值是0.75。idf(tq)的计算则依赖于包含t的文档数df(t)和文档集大小|D|。二、基础向量召回随着深度学习的发展，向量召回方法逐渐崭露头角。该方法不要求查询词和文档标题完全匹配，且天然适合引入用户侧的个性化信息。模型结构：基础向量召回模型采用双塔结构，左塔输入只包含query，右塔输入只包含文档的title。query和title的表示都是基于tri-gram的embedding进行sum pooling得到的。这种模型结构能够捕捉query和title之间的语义相似性，从而实现更精准的召回。效果：相比于关键词召回，基础向量召回能够明显改善长尾词的搜索效果，尤其对那些搜索次数比较少的长尾词改进效果最为明显。三、个性化向量召回为了进一步提升召回的个性化程度，Hulu在基础向量召回的基础上进行了改进，构成了个性化召回模型。query侧表示：除了查询词外，还引入了用户的个性化信号，包括用户的搜索历史和播放历史。这些历史序列经过Multihead Attention后，与query embedding进行concat，再经过Multi-View操作后映射到32维的向量空间，以表达当前的搜索请求。文档侧表示：除了标题外，还包含了描述信息。标题的表示仍然采用word embedding的sum pooling。而描述文本则被划分成定长的passage，每个passage用BERT进行encoding，不同passage的encoding结果经过self-attention得到描述的最终表达。四、小结Hulu视频搜索召回策略结合了关键词检索和融合个性化信息的向量检索两种方法。关键词检索简单有效，是基本召回源，且不存在冷启动问题，但依赖于查询词理解技术，不便于引入个性化信息。向量检索则不要求查询词和文档标题完全匹配，且便于引入个性化信息，能够改善长尾词的搜索效果。值得关注的点：query表示采用tri-gram表示，相比word粒度具有更高的容错性。用户个性化历史搜索/播放序列采用self-attention聚合编码。文档描述部分由于较长，采用划分成定长passage的方式，每个passage用BERT做encoding，再进行self-attention聚合为最终表示。综上所述，Hulu的个性化视频搜索算法在召回模块上通过结合关键词召回和向量召回，并引入个性化信息，实现了高效且精准的内容推荐。

nginx