算法对抗在AMP机制中的案例研究

伯克利&谷歌团队开源论文 | PPO算法与GAN!四足机器人成功迁移至宇树A1...

伯克利&谷歌团队开源论文：PPO算法与GAN结合，四足机器人成功迁移至宇树A1机器人UC Berkeley与Google团队在四足机器人领域取得了重大突破，他们提出的对抗运动先验（AMP）方法，仅需4.5秒的狗类运动数据，即可让四足机器人学习到自然的步态策略，能耗降低30%！这一成果已通过论文形式发表，并且代码已经开源。一、算法框架：GAN+对抗训练该团队利用对抗生成网络（GAN）从少量的运动数据中提取“风格奖励”，以此替代传统复杂的手工设计奖励函数，从而引导机器人学习到更加自然的步态。算法框架的核心在于双奖励机制和对抗训练流程。双奖励机制：任务奖励（Task Reward）：定义基础目标，如速度跟踪。风格奖励（Style Reward）：通过判别器网络学习，使机器人动作分布接近真实动物运动数据。风格奖励在总奖励函数中的权重更高，以确保动作的自然性。对抗训练流程：判别器网络：基于LSGAN（最小二乘GAN）架构，输入为状态转移，输出为“真实性”评分。判别器的目标是区分机器人动作与真实动物运动数据，最小化两者之间的Pearson散度。策略网络：通过PPO算法最大化累积奖励，生成符合物理规律的运动。策略网络的输入为33维状态向量（包括关节角度、速度、接触力、基座姿态等），输出为12维动作向量（关节目标角度，通过PD控制器转换为扭矩）。二、算法实现细节运动数据预处理：使用4.5秒的德国牧羊犬运动捕捉数据（包括小跑、踱步、转弯等动作），通过逆向运动学（IK）将狗的骨骼关键点映射到Unitree A1机器人的关节空间，计算12个关节的目标角度。同时，通过前向动力学（FK）计算机器人足端位置，并基于有限差分法估算基座速度和角速度。每帧数据包含33维状态信息，用于训练。轻量化网络设计：策略网络采用3层MLP（512-256-128）结构，输入状态信息，输出关节扭矩。判别器网络则基于LSGAN架构，并加入梯度惩罚以提升稳定性。训练过程在单块V100 GPU上进行，16小时即可完成4.2年等效仿真数据的训练。奖励函数设计：风格奖励通过判别器的输出动态调整，以约束动作的自然性。具体的风格奖励公式可参考原论文。三、仿真测试与真实机器人部署仿真对比实验：无风格奖励时，机器人呈现高频抖动前进，能耗极高，无法部署。使用手工设计的奖励函数时，机器人动作僵硬，能耗较高。而采用AMP风格奖励时，机器人步态自然，能耗降低30%。自然步态转换：机器人在低速时采用踱步（Pacing），高速时切换至小跑（Trotting），与真实动物行为一致。同时，飞行相位（Flight Phase）的显著降低能耗，COT曲线与哺乳动物步态高度吻合。真实机器人部署：策略成功迁移至Unitree A1四足机器人，完成速度跟踪、急转弯等任务。机器人动作平滑无抖动，关节扭矩降低，延长了硬件寿命。四、论文与源码论文名称：Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions论文链接：https://ieeexplore.ieee.org/abstract/document/9981973作者：Alejandro Escontrela; Xue Bin Peng; Wenhao Yu; Tingnan Zhang; Atil Iscen; Ken Goldberg论文源码：https://github.com/Alescontrela/AMP_for_hardware该研究成果不仅展示了GAN与PPO算法在四足机器人领域的有效结合，还为未来机器人运动控制的研究提供了新的思路和方法。