谷歌DeepMind在《Nature》发表最新研究,利用深度强化学习发现比已知更快的排序算法,并集成至LLVM标准C++库。核心内容解析研究目标针对排序、哈希等基础算法(每日使用量达数万亿次),通过深度强化学习突破人类科学家与计算方法的效率瓶颈,探索更优算法。方法创新单人游戏框架:将算法优化转化为“AssemblyGame”单人游戏,状态由当前算法、内存和寄存器状态组成。AlphaDev智能体:通过追加合法汇编指令(动作)生成算法,根据正确性(测试序列输出与期望对比)和延迟(算法长度或实际执行时间)获得奖励。汇编级优化:聚焦x86架构汇编指令,直接优化机器代码生成效率。图2:AssemblyGame游戏机制与奖励计算方式关键成果发现超越人类基准的小型排序算法,并集成至LLVM标准C++库,实现组件级替代。验证方法在代码优化领域的普适性,为自动化算法发现提供新范式。技术细节汇编指令格式:如mov指令用于寄存器间数据传输,优化聚焦指令组合与执行效率。正确性验证:通过预定义输入测试算法输出,确保功能准确性。延迟优化:惩罚算法长度增加或直接测量执行时间,平衡正确性与速度。图1:汇编算法表示与x86指令集优化研究背景与意义计算需求激增:基础算法效率直接影响全球计算资源利用率,微小优化可带来显著能耗与成本降低。人类与AI协同:传统方法依赖专家经验,AlphaDev展示AI在算法设计中的潜力,推动“自动化科学发现”进程。通讯作者简介Daniel J. Mankowitz,Google DeepMind研究科学家,专注强化学习在实际问题中的应用,包括从人类反馈中学习、代码优化、视频压缩等领域。在《Nature》《Science》发表多篇论文,成果涵盖推荐系统、物理控制等跨学科方向。原文获取方式关注公众号AI医学。添加小AI卫星(AIforMed或AIforMed01),备注「排序论文」。根据提示免费获取《使用深度强化学习发现更快的排序算法》原文及附件材料。



































