"TADPoLe:利用文本感知扩散模型实现零样本策略学习"
摘要
本文介绍了一种名为Text-Aware Diffusion for Policy Learning (TADPoLe)的新型强化学习框架,该框架利用预训练的、冻结的文本条件扩散模型来计算密集的零样本奖励信号,以支持文本对齐的策略学习。TADPoLe的提出是为了解决在缺乏专家演示的情况下,通过强化学习训练代理实现特定目标或执行所需行为时,需要手动设计适当的奖励函数的问题。该方法假设大规模预训练生成模型编码了丰富的先验知识,可以监督策略不仅以文本对齐的方式行为,而且与从互联网规模训练数据中总结的自然性概念相一致。实验证明,TADPoLe能够在Humanoid和Dog环境中,以及Meta-World环境中的机器人操作任务中,学习由自然语言指定的新的目标达成和连续运动行为。这些行为是在没有地面真实奖励或专家演示的情况下零样本学习的,并且在人类评估中被认为在质量上更自然。
原理
TADPoLe的核心在于使用预训练的文本条件扩散模型来生成密集的奖励信号,这些信号用于指导策略学习。具体来说,TADPoLe通过以下步骤工作:
- 奖励信号计算:在每个时间步,TADPoLe使用预训练的文本到图像扩散模型来计算渲染的后续图像与提供的文本描述之间的对齐分数。这个分数是通过比较模型对噪声图像的无条件预测和条件预测之间的均方误差(MSE)来实现的。
 - 自然性鼓励:除了对齐分数外,TADPoLe还鼓励行为符合人类感知自然性,通过模型能够准确预测应用的源噪声向量来近似。
 - 奖励信号组合:最终的奖励信号是上述两个分数的组合,通过可调的超参数进行加权,并应用symlog变换操作以确保奖励信号的有效性。
 
流程
TADPoLe的工作流程可以概括为以下几个步骤:
- 初始化:选择一个动作短语作为文本描述,初始化策略网络参数。
 - 数据收集:在环境中执行策略,收集状态、动作、奖励和下一个状态的序列。
 - 奖励计算:对每个时间步的渲染图像添加高斯噪声,使用扩散模型计算对齐和重建奖励。
 - 策略更新:根据收集的数据和计算的奖励,计算策略损失并应用梯度更新策略参数。
 - 迭代训练:重复上述步骤,直到策略收敛。
 
应用
TADPoLe的应用前景广泛,特别是在需要复杂行为学习但缺乏专家演示的领域。例如,在角色动画、机器人操作和虚拟环境中的复杂任务执行等应用中,TADPoLe能够提供一种无需手动设计奖励函数的解决方案。此外,TADPoLe还能够从大规模预训练中提取先验知识,从而在任意环境中学习更自然对齐的行为。
