本文聚焦于深度学习领域的模型优化技术,特别是从SFT过渡到PPO时采用的Rejection Sampling方法。Rejection Sampling在LLM(大型语言模型)的微调过程中扮演关键角色,尤其在RLHF(基于人类反馈的强化学习)框架下。 在LLaMA2模型中,Rejection Sampling的使用起初令人困惑,直到深入理解了RLHF方案后,方能清晰认识到它的作用。在RLHF V4之前,仅采用Rejection Sampling微调,后续结合PPO,首先在Rejection Sampling检查点上应用PPO,然后再进行采样。这一策略能够提高模型的生成质量。 Rejection Sampling涉及选择最优的温度参数T,当在10到100个输出之间采样时,T的理想范围为[1.2, 1.3]。通过调整此参数,能够优化模型生成内容的多样性与质量。 分析Rejection Sampling结果时,需考虑生成参数N和T的组合,以及对应的奖励得分。这一过程揭示了不同参数设置对模型性能的影响。通过改进策略,融合了所有迭代中表现最佳的样本,如在RLHF V1和V2中使用的样本。 在实现Rejection Sampling时,可以使用Transformers库,实现通过采样生成实现。提升采样效率的方法之一是利用PageAttention进行并行采样。具体应用情况可以通过参考vLLM等工具来了解。 在实验对比中,加入Rejection Sampling的奖励评估结果显示,与仅使用参考模型的评估相比,奖励得分有所提升,并且结果与RLHF方法一致。早期Anthropic的研究中也采用了Rejection Sampling,视作数据增强策略。 总结而言,《手撕RLHF》系列文章深入探讨了如何系统地进行LLM对齐工程,包括从SFT到PPO的过渡策略,以及Rejection Sampling在这一过程中的应用。通过结合人类反馈与强化学习,优化模型性能,实现更安全、高效的语言生成。 小冬瓜AIGC的原创超长文分享,致力于为LLM领域提供深入的理论与实践指南。从Pretrained、PEFT、RLHF、高性能计算等多方面,提供系统性的学习资源,助你快速上岸LLM赛道。无论是QLoRA、RWKV、FlashAttention等高级技术,还是KVCache、重复性惩罚等基础优化策略,都一一详尽解析。在《手撕Agent》系列中,从代码与工程角度探索通向AGI的路径,包括ReAct等方法,帮助你更清晰地思考与行动。 小冬瓜AIGC,以原创内容为核心,为LLM和AI领域的学习者与研究者提供全面支持,助你成为LLM赛道上的佼佼者。



































