"TADPoLe:利用文本感知扩散模型实现零样本策略学习"
摘要
本文介绍了一种名为Text-Aware Diffusion for Policy Learning (TADPoLe)的新型强化学习框架,该框架利用预训练的、冻结的文本条件扩散模型来计算密集的零样本奖励信号,以支持文本对齐的策略学习。TADPoLe的提出是为了解决在缺乏专家演示的情况下,通过强化学习训练代理实现特定目标或执行所需行为时,需要手动设计适当的奖励函数的问题。该方法假设大规模预训练生成模型编码了丰富的先验知识,可以监督策略不仅以文本对齐的方式行为,而且与从互联网规模训练数据中总结的自然性概念相一致。实验证明,TADPoLe能够在Humanoid和Dog环境中,以及Meta-World环境中的机器人操作任务中,学习由自然语言指定的新的目标达成和连续运动行为。这些行为是在没有地面真实奖励或专家演示的情况下零样本学习的,并且在人类评估中被认为在质量上更自然。
Read more...








