今日头条的推广依托于其先进的算法推荐系统,以下从算法原理、特征处理、模型架构、评估体系、实验平台及内容安全机制几个方面进行介绍:算法推荐原理:资讯推荐系统核心是解决用户、环境和资讯的匹配问题。今日头条算法推荐系统主要输入内容特征(图文、视频、UGC小视频、问答、微头条等各类内容的不同特征)、用户特征(兴趣标签、职业、年龄、性别、机型以及模型刻画的隐藏兴趣)、环境特征(不同时间、地点、场景下用户对信息的偏好差异)三个维度的变量,通过推荐模型预估内容在特定场景下对特定用户的合适程度。特征处理与推荐策略量化指标与内容干预:点击率、阅读时间、点赞、评论、转发等可量化指标用于评估推荐效果,但大体量推荐系统不能完全依赖指标评估,需引入数据以外的要素,进行内容干预。特征分类与作用:算法推荐要达到好效果,需解决四类特征。相关性特征解决内容和用户的匹配;环境特征解决基础特征和匹配;热度特征在冷启动上很有效;协同特征考虑相似用户的兴趣,可解决算法越推越窄的问题。文本特征价值:精确抽取文本特征可解决用户反馈的重复推荐问题,不同用户对重复定义不同,精确抽取能区分文章是否说同一件事。文本特征是推荐引擎工作的基础,颗粒度越细,冷启动能力越强。语义标签重要性:语义标签的效果是检查公司NLP(自然语言处理)的试金石。频道、兴趣表达等重要产品功能需要明确定义、容易理解的文本标签体系,所以尽管做好语义标签投入远大于隐式语义特征,仍需做好。复杂情况处理:推荐需考虑过滤噪声(过滤停留时间短的点击,打击标题党)、惩罚热点(对用户在热门文章上的动作做降权处理)、时间衰减(随着用户动作增加,老的特征权重随时间衰减,新动作贡献的特征权重更大)、惩罚展现(若推荐给用户的文章未被点击,相关特征权重会被惩罚)、考虑全局背景(考虑给定特征的人均点击比例)等复杂情况。模型架构与计算策略灵活算法实验平台:没有通用模型架构适用所有推荐场景,需要一个非常灵活的算法实验平台,各种算法复杂组合。西瓜视频、火山小视频、抖音短视频、悟空问答都用头条推荐系统,但具体架构不同,需不断尝试。在线训练与召回模型:今日头条有世界范围内较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。完全依赖模型推荐成本过高,因此采用简化策略的召回模型,将海量内容库变成相对小、可把握的内容库,再进入推荐模型,平衡计算成本和效果。流式计算框架:比起批量计算用户标签,采用流式计算框架可大大节省计算机资源,准实时完成用户兴趣模型的更新。几十台机器可支撑每天数千万用户的兴趣模型更新,99%的用户能在发生动作后10分钟实现模型更新。评估体系:影响推荐效果的因素众多,需要一个完备的评估体系,不能只看单一指标,要兼顾短期指标和长期指标,兼顾用户指标和生态指标,注意协同效应的影响,有时需要做彻底的统计隔离。目前尚未探索出将所有指标合成唯一公式的方法。实验平台:很多公司算法做得不好,可能是实验平台的问题。若A/B Test每次数据都错,无法上线,则算法迭代受阻。而强大的实验平台可实现每天数百个实验同时在线,高效管理和分配实验流量,降低实验分析成本,提高算法迭代效率。内容安全机制:头条拥有健全的内容安全机制,除人工审核团队外,还有技术识别,包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术,一直按行业最高标准要求自己。



































