Make-An-Agent：基于行为扩散模型的通用策略网络生成器

Posted on 2024-07-15 in CS.AI • 14 words • 1 minute read

Last updated on 2024-07-16

摘要

本文介绍了一种名为Make-An-Agent的创新策略参数生成器，该生成器利用条件扩散模型从行为演示中生成控制策略。通过行为嵌入编码轨迹信息，生成器合成潜在参数表示，进而解码为策略网络。该方法在多个任务上展示了卓越的多功能性和可扩展性，并能从未见过的任务中输出高性能策略，仅需少量演示作为输入。此外，该方法还能直接将生成的策略部署到真实世界的机器人上执行运动任务。

原理

Make-An-Agent的核心在于利用条件扩散模型进行策略网络参数的生成。首先，通过自动编码器将策略网络参数编码为紧凑的潜在表示，这些表示能够有效地重构原始策略。其次，利用对比学习捕捉长期轨迹与其成功或未来状态之间的互信息，生成新颖且高效的行为嵌入。最后，基于学习到的行为嵌入，使用条件扩散模型生成策略参数表示，这些表示随后通过预训练的解码器解码为可部署的策略。整个过程无需任何下游策略微调或适应性梯度更新，从而实现了从行为到策略的端到端生成。

流程

参数表示：使用多层感知机（MLP）作为策略近似器，将其参数展开并编码为潜在表示。
行为嵌入：通过对比损失学习行为嵌入，捕捉轨迹中的关键动态信息。
条件策略生成器：在训练好的参数自动编码器和行为嵌入基础上，训练条件扩散模型生成策略参数。
部署：将生成的策略参数通过解码器转换为可部署的策略，并在模拟和真实环境中进行测试。

应用

Make-An-Agent的广泛应用前景包括但不限于：

多任务学习：在多个任务和领域中生成高效策略，提高机器人的适应性和灵活性。
跨领域适应：在不同机器人和环境中部署策略，实现跨领域的策略迁移。
真实世界应用：直接在真实机器人上部署生成的策略，用于各种复杂的运动和操作任务。