SuperPADL:通过渐进式监督蒸馏实现大规模语言导向的物理模拟控制
摘要
SuperPADL论文介绍了一种创新的框架,用于通过语言指令控制基于物理的模拟角色动画。该框架结合了强化学习(RL)和监督学习,能够在大规模数据集上训练控制器,实现从文本到动作的转换。SuperPADL的核心优势在于其能够处理数千种不同的动作指令,并且能够在实时环境中运行,支持用户交互式地编辑和创建多阶段动画。论文展示了该框架在生成高质量、多样化的角色动画方面的显著性能,特别是在处理复杂的动作和自然语言指令方面。
原理
SuperPADL的工作原理基于渐进式监督蒸馏(Progressive Supervised Distillation)。首先,使用强化学习训练大量特定技能的专家控制器。然后,通过迭代蒸馏过程,将这些专家控制器的能力转移到更大、更健壮的策略中,这个过程结合了强化学习和监督学习。最终,形成一个能够在超过5000种技能上进行训练的单一统一控制器,该控制器能够在消费级GPU上实时运行,并自然地过渡不同技能。
流程
SuperPADL的工作流程分为三个主要阶段:
- 训练每个动作捕捉序列的独立专家跟踪策略,使用DeepMimic方法在物理域中创建高质量的重建。
 - 将数据集随机分成20个动作一组,训练每个组的控制器策略,使用结合了对抗性强化学习和行为克隆(BC)损失的混合目标。
 - 将组控制器蒸馏成一个单一的、文本条件化的全局策略,该策略仅通过监督模仿目标进行训练。
 
图2展示了SuperPADL训练过程的概览。每个阶段的训练都逐步产生更通用、更有能力的控制器,同时随着每个策略学习的动作数量增加,逐步减少对RL方法的使用。
应用
SuperPADL的应用前景广泛,特别是在需要复杂角色动画和自然语言交互的领域,如视频游戏、电影制作和虚拟现实。该框架的能力不仅限于生成动画,还包括实时响应用户输入和编辑,这为交互式内容创作提供了新的可能性。随着技术的进一步发展,SuperPADL有望成为物理模拟角色控制的标准工具。
