关键词布局如何驱动CTR点击率的收录偏差分析

CTR点击率预估

CTR点击率预估CTR（Click-Through Rate）点击率预估是对用户是否点击广告进行预测，可以视为二分类问题，即点和不点。以下是关于CTR点击率预估的详细解析：一、指标CTR点击率预估主要有两个层次的指标：排序指标：这是最基本的指标，决定了我们是否有能力把最合适的广告找出来呈现给最合适的用户。从技术上，我们用AUC（Area Under Curve）来度量。AUC值越高，表示模型对正负样本的区分能力越强。数值指标：这是进一步的指标，是竞价环节进一步优化的基础。如果我们对CTR普遍低估，出价会相对保守，导致预算花不出去或花得太慢；如果我们对CTR普遍高估，出价会相对激进，导致CPC（Cost Per Click）太高。二、框架工业界常用的CTR预估框架包括基于LR（Logistic Regression）的点击率预估策略，以及近年来兴起的DNN（Deep Neural Networks）方法。百度宣布DNN做CTR预估相比LR产生了20%的效益提升。DNN通过线性组合+非线性函数（如tanh、sigmoid等）来做高阶特征生成。此外，GBDT（Gradient Boosting Decision Trees）+ FM（Factorization Machines）也是一种常用的方法，用树和FM来做高阶特征生成，最后一层都是非线性变换。在广告这种情境下，GBDT+FM的方法可能更为有效。三、数据探索数据探索主要是基础特征的粗筛和规整。展示广告的场景可以表述为“在某场景下，通过某媒体向某用户展示某广告”，因此基础特征就在这四个范围内寻找：场景：包括何时何地、使用何种设备、使用什么浏览器等。广告：包括广告主特征、广告自身的特征如campaign、创意、类型、是否重定向等。媒体：包括媒体（网页、app等）的特征、广告位的特征等。用户：包括用户画像、用户浏览历史等。单特征选择的方法有简单统计方法和特征选择指标。简单统计方法统计特征取值的覆盖面和平衡度，对dominant取值现象很显著的特征，要选择性地舍弃该特征或者是归并某些取值集到一个新的值。特征选择指标主要有去冗余和去无用两种目的，去冗余主要是特征间的相关性分析，如Pearson相关性；去无用主要是信息增益比分析。四、特征组合特征组合是提升CTR预估效果的重要手段。主要有两种方法：FM系列：对于categorical feature，将其encode成one hot的形式，特征组合适合用FM。Tree系列：对于numerical feature和ordinal feature，特征组合可以使用决策树类的，一般用random forest或GBDT。GBDT的效果通常更好，因为boosting方法会不断增强对错判样本的区分能力。对于广告点击率预估，同时拥有这三类特征，因此一个简单的方法就是级联地使用这两个方法，更好地进行特征组合。五、LR模型LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值映射到0~1区间，映射后的函数值就是CTR的预估值。LR模型容易并行化，处理上亿条训练样本不是问题，但线性模型学习能力有限，需要大量特征工程预先分析出有效的特征、特征组合，从而间接增强LR的非线性学习能力。为了自动发现有效的特征、特征组合，业界提出了GBDT+LR的方法。GBDT可以发现多种有区分性的特征以及特征组合，决策树的路径可以直接作为LR输入特征使用，省去了人工寻找特征、特征组合的步骤。六、GBDT与LR融合GBDT与LR的融合方式在实践中取得了良好的效果。通过GBDT模型学出的多棵树，可以将输入样本映射到多个特征上，这些特征作为LR的输入，可以显著提升CTR预估的效果。此外，业界还有GBDT+FM的实践，也取得了不错的效果。GBDT与LR融合的关键在于使用ensemble决策树而非单颗树，以及采用GBDT而非RF（Random Forests）。这是因为多棵树的表达能力更强，且GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。七、其他模型除了LR、GBDT+LR等方法外，还可以使用其他机器学习方法来完成CTR预测，如xgboost、SVM、RF等。这些模型各有优缺点，可以根据具体场景和数据特点选择合适的模型进行尝试和优化。综上所述，CTR点击率预估是一个复杂而重要的任务，需要综合考虑多种因素和方法来提升预估效果。通过合理的特征工程、特征组合以及模型选择和优化，可以实现对用户是否点击广告的准确预测。

nginx