语义索引对比灰度实验算法的生态演化趋势

个人笔记的一些思考:语义搜索,推荐算法,模糊场景匹配

个人笔记领域中,语义搜索、推荐算法、模糊场景匹配具有重要应用价值,且可通过技术手段实现以提升笔记使用体验,目前已有相关实践探索。具体如下:语义搜索需求背景:笔记内容宽泛,包含客观事实知识、主观思想、微妙概念描述等。随着笔记数量增多,如用户有600篇记录,按传统方式搜索难以精准获取所需信息。用户希望搜索“健康”,能得到所有与身体健康、心理健康、心灵健康、长期短期健康相关的内容;搜索“饮食健康”,可找到如“喝浓茶失眠的经历”“喝咖啡导致胃疼的经历”“拉黑食材不好餐馆的记录”等日常提醒类内容。实现方式:利用ChatGPT的embedding模型,其生成1500维的句向量,可直接计算对比词、句、文章之间的相似度。用户搜索时,根据模糊感觉往搜索框堆词,模型就能找到最匹配的陈年笔记,一个形容词不够可多加几个,实现多重维度定位。推荐算法(猜你喜欢)原理:基于ChatGPT的embedding模型,通过计算词、句、文章的相似度来实现推荐功能。与传统词向量(需自己分词)相比,使用更方便、效果更好。应用效果:在笔记搜索场景中,能根据用户输入的关键词,快速推荐出与之最相关的笔记内容,为用户提供类似“猜你喜欢”的体验,帮助用户发现可能感兴趣但未明确搜索的笔记。模糊场景匹配功能体现:无需分类:传统笔记可能需要分类,但分类会将高维对象打得很平,反直觉且不好用。利用语义搜索和推荐算法实现模糊场景匹配后,笔记不再需要严格分类。用户可以用直觉去找笔记,思绪可随风飘荡,没有分类限制,线索可随意组合。相似笔记功能:拿当前笔记去和所有笔记匹配,找出在最丰富维度上与当篇笔记最契合的笔记。这类似于人脑的思考方式,只有具备强大能力的模型(如花费1700万美元训练出的ChatGPT)或人脑才能实现。优势:计算机算力可替代人脑算力完成瞬间对比大量笔记的工作。用户虽拥有更充分的上下文知识和超过GPT的洞察能力,但无法瞬间对比600篇笔记,而计算机算力能解决这一问题,这是做个人笔记的底层方法论支撑之一。实践探索用户实践:有用户因等不到相关功能的笔记产品,自己购买20块一个月的阿里云,将以前的失败试验品笔记代码翻出来魔改,利用ChatGPT的embedding模型,花一个月时间实现了语义搜索、相似文章搜索、推荐算法、模糊场景匹配等功能。


nginx