SimDT:革新自动驾驶的样本高效模仿多令牌决策转换器

Sample-efficient Imitative Multi-token Decision Transformer for Generalizable Real World Driving

摘要

本文介绍了一种名为“样本高效模仿多令牌决策转换器(SimDT)”的创新方法,旨在解决自动驾驶领域中从模拟环境到真实世界设置的知识转移问题。SimDT通过引入多令牌预测、模仿在线学习和优先经验回放,显著提升了决策转换器的性能。实验结果表明,SimDT在Waymax基准测试中超越了流行的模仿学习和强化学习算法,显示出在复杂动态环境中的强大适应性和样本效率。

原理

SimDT的核心在于其多令牌决策转换器架构,该架构通过并行处理多个令牌,同时保持自回归属性,确保每个预测仅依赖于先前生成的令牌。这种机制通过使用掩蔽的自注意力机制实现,允许模型考虑多个未来位置而不违反因果依赖。此外,SimDT结合了模仿学习和强化学习的优势,通过在线模仿训练管道和优先经验回放,有效处理大规模数据集,提高了模型的样本效率和决策质量。

流程

SimDT的工作流程包括三个主要组件:多令牌决策转换器、在线模仿训练管道和优先经验回放。首先,通过特征编码网络处理真实世界驾驶状态,提取关键感知信息。然后,多令牌决策转换器在因果转换器内部进行多令牌预测,生成多个动作令牌。在线模仿训练管道结合了专家驾驶数据和策略代理的探索,通过混合在线适应阶段,快速调整分布以接近专家行为。优先经验回放则根据动作损失选择性地采样经验,专注于更具有信息量的经验,从而优化学习过程。

应用

SimDT不仅在自动驾驶领域展现出巨大的潜力,其样本高效的模仿强化学习框架还可广泛应用于其他需要复杂决策的机器人任务。随着技术的进一步发展和优化,SimDT有望成为未来智能系统中的关键技术,推动自动驾驶和其他自动化领域的技术进步。