E2CFD:利用大型语言模型实现安全和高效的强化学习成本函数设计
摘要
本文介绍了一种名为E2CFD的新型成本函数设计框架,旨在通过大型语言模型(LLM)实现安全和高效的强化学习。现有的安全强化学习算法主要针对特定类型的安全需求场景设计,缺乏通用性,且其优化目标与任务需求不一致。E2CFD框架利用LLM理解多种安全场景并生成相应的成本函数,结合快速性能评估(FPE)方法,实现成本函数的快速迭代更新。实验证明,使用该框架训练的策略性能优于传统的安全强化学习算法和精心设计的成本函数训练的策略。
Read more...








