算法对抗在AMP机制中的案例研究

伯克利&谷歌团队 开源论文 | PPO算法与GAN!四足机器人成功迁移至宇树A1...

伯克利&谷歌团队开源论文:PPO算法与GAN结合,四足机器人成功迁移至宇树A1机器人UC Berkeley与Google团队在四足机器人领域取得了重大突破,他们提出的对抗运动先验(AMP)方法,仅需4.5秒的狗类运动数据,即可让四足机器人学习到自然的步态策略,能耗降低30%!这一成果已通过论文形式发表,并且代码已经开源。一、算法框架:GAN+对抗训练该团队利用对抗生成网络(GAN)从少量的运动数据中提取“风格奖励”,以此替代传统复杂的手工设计奖励函数,从而引导机器人学习到更加自然的步态。算法框架的核心在于双奖励机制和对抗训练流程。双奖励机制:任务奖励(Task Reward):定义基础目标,如速度跟踪。风格奖励(Style Reward):通过判别器网络学习,使机器人动作分布接近真实动物运动数据。风格奖励在总奖励函数中的权重更高,以确保动作的自然性。对抗训练流程:判别器网络:基于LSGAN(最小二乘GAN)架构,输入为状态转移,输出为“真实性”评分。判别器的目标是区分机器人动作与真实动物运动数据,最小化两者之间的Pearson散度。策略网络:通过PPO算法最大化累积奖励,生成符合物理规律的运动。策略网络的输入为33维状态向量(包括关节角度、速度、接触力、基座姿态等),输出为12维动作向量(关节目标角度,通过PD控制器转换为扭矩)。二、算法实现细节运动数据预处理:使用4.5秒的德国牧羊犬运动捕捉数据(包括小跑、踱步、转弯等动作),通过逆向运动学(IK)将狗的骨骼关键点映射到Unitree A1机器人的关节空间,计算12个关节的目标角度。同时,通过前向动力学(FK)计算机器人足端位置,并基于有限差分法估算基座速度和角速度。每帧数据包含33维状态信息,用于训练。轻量化网络设计:策略网络采用3层MLP(512-256-128)结构,输入状态信息,输出关节扭矩。判别器网络则基于LSGAN架构,并加入梯度惩罚以提升稳定性。训练过程在单块V100 GPU上进行,16小时即可完成4.2年等效仿真数据的训练。奖励函数设计:风格奖励通过判别器的输出动态调整,以约束动作的自然性。具体的风格奖励公式可参考原论文。三、仿真测试与真实机器人部署仿真对比实验:无风格奖励时,机器人呈现高频抖动前进,能耗极高,无法部署。使用手工设计的奖励函数时,机器人动作僵硬,能耗较高。而采用AMP风格奖励时,机器人步态自然,能耗降低30%。自然步态转换:机器人在低速时采用踱步(Pacing),高速时切换至小跑(Trotting),与真实动物行为一致。同时,飞行相位(Flight Phase)的显著降低能耗,COT曲线与哺乳动物步态高度吻合。真实机器人部署:策略成功迁移至Unitree A1四足机器人,完成速度跟踪、急转弯等任务。机器人动作平滑无抖动,关节扭矩降低,延长了硬件寿命。四、论文与源码论文名称:Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions论文链接:https://ieeexplore.ieee.org/abstract/document/9981973作者:Alejandro Escontrela; Xue Bin Peng; Wenhao Yu; Tingnan Zhang; Atil Iscen; Ken Goldberg论文源码:https://github.com/Alescontrela/AMP_for_hardware该研究成果不仅展示了GAN与PPO算法在四足机器人领域的有效结合,还为未来机器人运动控制的研究提供了新的思路和方法。


nginx