内容扩写是否会被向量检索模型取代

Embedding搜索能代替文本搜索吗?

Embedding搜索目前还不能完全代替文本搜索。以下是详细分析:Embedding在人工智能领域,特别是在推荐系统中,已经被广泛使用。通过将用户和物品表示为向量,系统能够更准确地推荐相关内容。然而,在搜索系统中,虽然理论上也可以使用embedding来表示查询(query)和文档(doc),并进行召回排序,但embedding搜索目前还无法完全取代文本搜索。Embedding搜索的优势方便和统一:通过端对端的模型训练,embedding能够学习到item的表示。并且,随着数据规模的增大和计算能力的加强,理论上可以学习到更好的表示。多模态支持:搜索的文档(doc)是多种模态的,包括文章、视频、图片、音乐等。embedding可以统一表示这些多模态的文档,从而避免不同模态文档字段不可比的问题。Embedding搜索面临的潜在问题Embedding的稳定性:对于文本内容,即使添加或删除几个无关的字,embedding的表示是否仍然稳定是一个问题。在电商搜索中,商品的营销标题经常修改,修改前后的embedding是否一致也是一个挑战。对于视频搜索,同一份视频可能会以不同方式被复制(如加logo、插入广告等),这时视频的内容仍然是相似的,但embedding学习如何保证得到相似的表示是一个难题。长尾的embedding:长尾查询(query)是搜索中比较难解决的问题。文本搜索在长尾查询上可以通过文本匹配召回对应的文档,但embedding对于长尾查询的学习可能较为困难。搜索的精准性:搜索的特性是需要将最相关的item排在顶部位置。文本搜索可以通过文本匹配度来实现这一点,但embedding检索是否能支持这种特性尚不确定。分层计算的支持:文本搜索通常采用分层排序,对大量候选item进行轻计算粗排序,对少量item进行重计算细排序。embedding是否能支持这种特性还是只采用单层排序是一个问题。Embedding的个数:文档可能包含多个字段,并且不同字段可能反映不同维度的信息。是学习单个统一的embedding还是为不同字段学习多个embedding是一个需要权衡的问题。不同模态embedding的可比性:如果通过统一模型同时学习不同模态item的embedding,得到的embedding是可比的。但大多场景很难同时学习或者学习复杂度高,单独学习item的embedding能否保证可比性是一个挑战。Embedding搜索的可控性:文本检索在一定程度上是可控的,因为召回的item和query至少存在共同的词。但embedding通过向量相似度计算并不能保证一定存在共同的词,可能会误召回一些不相关的item。一词多义的解决:Embedding在多词一义上取得了不错的效果,但对于一词多义的消歧问题,目前还只能覆盖一些非常明显的歧义case。Embedding的扩展性:除了相关性,embedding是否能覆盖排序的其他因子(如时新性、多样性等)也是一个需要考虑的问题。综上所述,虽然embedding搜索在某些方面具有优势,但目前仍处在尝试和发展的阶段,并且可能永远都不会完全代替文本在搜索中的作用。文本搜索在精准性、可控性、长尾查询处理等方面仍然具有不可替代的优势。


nginx