Robots设置与搜索意图识别关系的内容调优

我看搜索——基本流程及意图识别

我看搜索——基本流程及意图识别搜索的基本流程主要包括业务初筛逻辑、召回及排序阶段，而意图识别则是提升搜索体验的关键环节。以下是对这两个方面的详细阐述：一、业务初筛逻辑画像层面判定通过分析用户的基本信息，如区域、学科、年级等，可以在搜索时直接进行匹配，减少意图识别的工作。这种方法基于用户画像，能够更精准地定位用户需求，提高搜索效率。简要匹配及过滤对某些query进行简要匹配和过滤，避免不必要的分词逻辑及流程。例如，某些特定的查询词可能不需要复杂的分词处理，直接进行匹配即可。二、召回及排序阶段召回转换：支持汉语和拼音的映射，特别是针对知识点、课文标题、题型名称等元数据。例如，将“岳阳楼记”转换为“yueyanglouji”，以便进行更准确的匹配。使用NLP的汉字转拼音技术，结合反向映射逻辑实现。分词：在细分领域使用通用词典词库可能导致不满意的搜索结果。需要针对特定领域构建专用词典，以提高分词准确性。如图1所示，通用词典可能导致“必修四”和“上学期”被拆开，影响搜索质量。新词发现：识别未登录词，包括随时代发展而新出现或旧词新用的词。需要PM、学科教研及编辑人员具备更新意识，及时关注并更新词典。排序普通方法：CTRCTR方法可能导致内容数字资源的长尾问题，即新资源因数据沉淀较少而排不到前面。特别是在教材和知识点更新后，用户期望看到的是对应最新的资源。机器学习方法：包括单文档、文档对、文档列表方法。单文档方法在大数据基础设施建设较好的情况下基本可行，但前提是数据质量良好。文档对及文档列表方法涉及大量数据标注，且标注人员的判断可能与用户预期不匹配，容易导致过拟合。三、发现的瓶颈query分词与文档检索的匹配问题在PC环境下，用户输入的词语较短或字符输入困难，与试题文本长度差距较大。TF-IDF算法效果有限，复制粘贴或拍照搜索试题的场景更为常见。用户query与学科编辑标题体系的不一致用户心中的query与学科编辑按照一定的规范标准命名的标题体系存在差异。这种差异导致搜索匹配的巨大障碍，需要从哲学角度理解矛盾论中的对立统一规律。四、意图识别的解决策略功能切换意图用户将搜索输入框作为功能切换的智能入口，如通过输入“英语”来切换学科。建立对应的匹配切换策略进行解决，逻辑可参照对话机器人的实体识别及填槽策略。较明确的资源意图对于较精确的搜索意图，可以借鉴对话系统的意图识别方法。在识别到这种意图后，不进入分词流程，而是进入意图识别及预测流程进行填槽。例如，用户输入“最新的新高考英语模拟卷”，意图识别为试卷，并填充槽位信息，如学科为英语、时间为时间倒序、场景为高考-新高考模拟。这种方法能够更准确地匹配用户需求，提高搜索结果的满意度。综上所述，搜索的基本流程包括业务初筛逻辑、召回及排序阶段，而意图识别则是提升搜索体验的关键。通过优化分词、构建专用词典、更新词典、采用合适的排序方法以及识别功能切换和资源意图等策略，可以显著提高搜索的准确性和用户满意度。

nginx