用户信号分析对用户行为模型的收录偏差分析

聊聊推荐系统中的偏差

推荐系统中的偏差推荐系统作为现代信息检索和个性化服务的重要工具，其核心在于通过分析用户行为数据来预测用户的未来兴趣。然而，用户行为数据并非完美无瑕，其中蕴含着各式各样的偏差。这些偏差如果未被妥善处理，将直接影响推荐系统的准确性和用户满意度。以下是对推荐系统中常见偏差的详细探讨。一、推荐的反馈闭环与偏差加剧推荐系统是一个由用户、数据和模型三者构成的动态反馈闭环。在这个闭环中，用户产生交互数据，数据被用来训练模型，模型再产生推荐结果影响用户行为。这个循环过程不断加剧各阶段的偏差，导致问题愈发严重。二、常见偏差分类1. 数据偏差（1）显式反馈数据 - Selection Bias当用户自由选择item进行评分时，可观测到的评分数据并非所有评分的代表性样本。这种偏差源于用户倾向于评分自己喜爱或极端评价的item，导致评分数据“非随机缺失”。（2）显式反馈数据 - Conformity Bias用户评分时可能受到他人影响，即使基于自己的判断，也会倾向于与大众评分保持一致。这种从众心理导致的偏差称为Conformity Bias。（3）隐式反馈数据 - Exposure Bias由于只有部分item曝光给用户，因此未观测到的交互行为并不直接等同于训练中的负例。这种偏差源于item的曝光机制，可能受推荐系统策略、用户选择、背景关系及item流行度等多种因素影响。（4）隐式反馈数据 - Position Bias用户倾向于对推荐列表中更高位置上的item产生交互行为，这种位置偏好导致的偏差称为Position Bias。在搜索和推荐系统中，位置偏差都是一个经典且持续存在的问题。2. 模型偏差Inductive Bias模型偏差不一定总是有害的，实际上一些归纳偏差被故意加入到模型设计中以实现某些特性。归纳偏差是指为了模型更好地学习目标函数并泛化到训练数据上，而设置的一些模型假设。这些假设未必都是准确的，因此会产生一些偏差。例如，用户交互行为可以由向量内积表示、Adaptive negative sampler用于增加学习速度等假设，都可能带来模型偏差。3. 推荐结果的偏差与不公平性（1）Popularity Bias流行的item会被更频繁地推荐并产生用户交互，这种偏差称为Popularity Bias。它降低了个性化层次，减少了用户对于平台的惊喜体验，并可能引发马太效应。（2）Unfairness整个系统可能不公平地歧视某些群体用户，这种偏差称为Unfairness。其本质原因是数据的不平衡性，可能带来社会性问题，如年龄、性别、种族、社交关系多少等歧视。不公平的数据会导致更不公平的用户体验，形成恶性循环。三、图片展示四、总结推荐系统中的偏差是一个复杂且重要的问题。为了提升推荐系统的准确性和用户满意度，必须深入理解和处理这些偏差。本文介绍了推荐系统中的常见偏差，包括数据偏差、模型偏差以及推荐结果的偏差与不公平性，并进行了简单的分类和探讨。后续文章将进一步讨论如何解决这些偏差的常见方法与套路。

nginx