算法更新对CTR点击率的未来方向

CTR算法总结概括

CTR算法总结概括CTR(Click-Through Rate)点击率预估是一个二分类问题,旨在预测某个item被用户点击的概率。其输入通常包括用户(user)、物品(Item)以及上下文(context)信息,而输出则是该item被点击的概率或者是否被点击(取决于是否使用了sigmoid函数)。以下是CTR预估中常用的算法及其发展脉络的总结:最原始的算法:LR(Logistic Regression)核心思想:直接使用LR线性回归模型,根据user和Item的特征维度信息来预测点击率。缺陷:LR模型无法捕获用户组合特征信息,即用户是否点击一个item不仅与user和item的单独特征有关,还与它们之间的隐藏组合特征有关。LR+人工组合特征改进:为了弥补LR的不足,人工进行特征组合,如将“天津”+“相声类”进行组合。问题:这种方法耗时耗力,且人工不一定能完全挖掘出对结果有意义的特征组合。LR+GBDT(Gradient Boosting Decision Tree)核心思想:使用GBDT进行特征组合,然后将GBDT的输出作为LR的输入特征。优势:GBDT能够自动进行特征组合,提高了模型的表达能力。LR+二项式/多项式模型核心思想:让所有的特征都进行一一组合,然后使用LR学习各个特征组合的参数权重。问题:由于训练矩阵是稀疏的,某些特征组合的参数可能无法得到有效更新。因此,引入了矩阵分解的思想,进而发展出了FM算法。FM(Factorization Machines)算法核心思想:利用矩阵分解思想,将一个高维的特征组合矩阵分解成两个低维矩阵的乘积。通过embedding将离散特征转换为低维稠密向量,然后进行内积以进行二阶特征组合,并加上线性项。优势:FM算法能够自动学习特征之间的交互关系,且训练复杂度较低。普通的embedding+MLP(Multilayer Perceptron)核心思想:使用embedding将离散特征转换为低维稠密向量,然后输入到多层感知机(MLP)中进行高阶特征提取。优势:能够挖掘更深层的特征组合信息。FNN(Factorization-machines supported Neural Network)核心思想:首先预训练一个FM模型,然后固定FM的embedding层,将其输出作为MLP的输入进行训练。优势:结合了FM的二阶特征组合能力和MLP的高阶特征提取能力。deepFM核心思想:将FM和深度神经网络(DNN)并联起来,共享相同的embedding层,然后分别进行二阶特征组合和高阶特征提取,最后将两者的输出进行拼接并输入到sigmoid函数中进行预测。优势:能够同时捕获低阶和高阶特征组合信息,且不需要预训练。wide&deep核心思想:结合线性模型(wide部分,通常用于手工特征组合)和深度神经网络(deep部分,用于学习高阶特征组合)进行并行训练。优势:能够同时利用手工特征和自动学习的高阶特征,提高模型的泛化能力和准确性。总结:CTR算法的发展经历了从简单的线性模型(如LR)到复杂的深度学习模型(如deepFM、wide&deep)的过程。这些算法的核心在于如何有效地进行特征组合和特征提取,以提高模型的表达能力和预测准确性。在实际应用中,可以根据具体场景和数据特点选择合适的算法进行CTR预估。以上图片展示了FM、FNN、deepFM和wide&deep算法的基本结构,有助于更好地理解这些算法的工作原理。


nginx