算法更新对CTR点击率的未来方向

CTR算法总结概括

CTR算法总结概括CTR（Click-Through Rate）点击率预估是一个二分类问题，旨在预测某个item被用户点击的概率。其输入通常包括用户（user）、物品（Item）以及上下文（context）信息，而输出则是该item被点击的概率或者是否被点击（取决于是否使用了sigmoid函数）。以下是CTR预估中常用的算法及其发展脉络的总结：最原始的算法：LR（Logistic Regression）核心思想：直接使用LR线性回归模型，根据user和Item的特征维度信息来预测点击率。缺陷：LR模型无法捕获用户组合特征信息，即用户是否点击一个item不仅与user和item的单独特征有关，还与它们之间的隐藏组合特征有关。LR+人工组合特征改进：为了弥补LR的不足，人工进行特征组合，如将“天津”+“相声类”进行组合。问题：这种方法耗时耗力，且人工不一定能完全挖掘出对结果有意义的特征组合。LR+GBDT（Gradient Boosting Decision Tree）核心思想：使用GBDT进行特征组合，然后将GBDT的输出作为LR的输入特征。优势：GBDT能够自动进行特征组合，提高了模型的表达能力。LR+二项式/多项式模型核心思想：让所有的特征都进行一一组合，然后使用LR学习各个特征组合的参数权重。问题：由于训练矩阵是稀疏的，某些特征组合的参数可能无法得到有效更新。因此，引入了矩阵分解的思想，进而发展出了FM算法。FM（Factorization Machines）算法核心思想：利用矩阵分解思想，将一个高维的特征组合矩阵分解成两个低维矩阵的乘积。通过embedding将离散特征转换为低维稠密向量，然后进行内积以进行二阶特征组合，并加上线性项。优势：FM算法能够自动学习特征之间的交互关系，且训练复杂度较低。普通的embedding+MLP（Multilayer Perceptron）核心思想：使用embedding将离散特征转换为低维稠密向量，然后输入到多层感知机（MLP）中进行高阶特征提取。优势：能够挖掘更深层的特征组合信息。FNN（Factorization-machines supported Neural Network）核心思想：首先预训练一个FM模型，然后固定FM的embedding层，将其输出作为MLP的输入进行训练。优势：结合了FM的二阶特征组合能力和MLP的高阶特征提取能力。deepFM核心思想：将FM和深度神经网络（DNN）并联起来，共享相同的embedding层，然后分别进行二阶特征组合和高阶特征提取，最后将两者的输出进行拼接并输入到sigmoid函数中进行预测。优势：能够同时捕获低阶和高阶特征组合信息，且不需要预训练。wide&deep核心思想：结合线性模型（wide部分，通常用于手工特征组合）和深度神经网络（deep部分，用于学习高阶特征组合）进行并行训练。优势：能够同时利用手工特征和自动学习的高阶特征，提高模型的泛化能力和准确性。总结：CTR算法的发展经历了从简单的线性模型（如LR）到复杂的深度学习模型（如deepFM、wide&deep）的过程。这些算法的核心在于如何有效地进行特征组合和特征提取，以提高模型的表达能力和预测准确性。在实际应用中，可以根据具体场景和数据特点选择合适的算法进行CTR预估。以上图片展示了FM、FNN、deepFM和wide&deep算法的基本结构，有助于更好地理解这些算法的工作原理。

nginx