利用视觉语言模型提升机器人强化学习的效率与泛化能力
摘要
本文探讨了在机器人强化学习(RL)中,如何通过视觉语言模型(VLM)生成的奖励来提高学习效率和任务完成能力。传统的RL方法在处理通用操作任务时,往往需要大量的数据和人工设计的奖励函数。本文提出了一种基于VLM的奖励塑造方法,通过自然语言描述的任务指令,利用VLM生成密集奖励,从而提高样本效率和任务成功率。实验结果显示,这种方法在20K在线微调步骤内实现了任务的成功完成,并且对领域内演示的数量减少具有鲁棒性。
Read more...本文探讨了在机器人强化学习(RL)中,如何通过视觉语言模型(VLM)生成的奖励来提高学习效率和任务完成能力。传统的RL方法在处理通用操作任务时,往往需要大量的数据和人工设计的奖励函数。本文提出了一种基于VLM的奖励塑造方法,通过自然语言描述的任务指令,利用VLM生成密集奖励,从而提高样本效率和任务成功率。实验结果显示,这种方法在20K在线微调步骤内实现了任务的成功完成,并且对领域内演示的数量减少具有鲁棒性。
Read more...本文由Ashwin Ramaswamy和Ransalu Senanayake共同撰写,探讨了在强化学习中如何利用Q值来适应新任务的问题。文章指出,尽管当前强化学习研究主要采用策略梯度方法,但基于值的方法在某些领域仍然具有价值,尤其是在如何高效利用样本方面。论文通过设计实验,观察了不同训练算法对Q值学习的影响,并测试了模型在重新训练以完成稍作修改的任务时的适应性。此外,研究还将设置扩展到自动驾驶车辆在无保护交叉口的场景,发现当基础模型的Q值估计接近真实Q值时,模型能更快地适应新任务。研究结果为样本高效的任务适应提供了一些见解和指导。
Read more...本文介绍了一种名为Language Agent Biology Benchmark (LAB-Bench)的新型基准测试,旨在评估人工智能系统在生物学研究中的实际应用能力。LAB-Bench包含超过2400个多选题,涵盖了文献回顾与推理、图表解读、数据库访问与导航、DNA和蛋白质序列的理解与操作等多个实际研究任务。与以往的科学基准不同,LAB-Bench强调AI系统在实际研究中的辅助作用,特别是在文献搜索和分子克隆等领域。此外,本文还评估了多个前沿商业和开源模型在该基准上的表现,并与人类生物学专家的性能进行了比较。LAB-Bench将持续更新和扩展,预计将成为开发自动化研究系统的有用工具。
Read more...AutoGRAMS框架是一种用于编程多步骤与语言模型交互的软件。它将AI代理表示为一个图,其中每个节点可以执行语言模型指令或传统代码,而图中的转换可以由语言模型决策或传统分支逻辑控制。AutoGRAMS支持使用变量作为记忆,并允许节点调用其他AutoGRAMS图作为函数。该框架通过图形中心的方法增强了AI代理设计的可解释性、可控性和安全性。AutoGRAMS的开源框架可在https://github.com/autograms/autograms获取。
Read more...本文介绍了一种名为Lean-STaR的新型框架,旨在通过在每个证明步骤之前生成非正式的思维链(“思维”)来提升语言模型在定理证明中的能力。传统上,基于语言模型的定理证明假设通过在大量形式证明数据上进行训练,模型将学会证明定理。然而,我们的关键观察是,形式证明中未包含的丰富非正式信息对于学习证明定理可能是有用的。Lean-STaR利用回顾性的真实策略生成合成思维,用于训练语言模型。在推理时,训练后的模型直接在预测每个证明步骤的策略之前生成思维。此外,Lean-STaR在自我教学推理者框架的基础上,应用专家迭代算法对模型进行进一步微调,使其在Lean定理证明环境中在miniF2F-test基准上取得了最先进的结果。
Read more...本文探讨了大型语言模型(LLMs)中的幻觉问题,这是一个在文本理解和生成任务中普遍存在的现象。尽管LLMs在多个下游任务中取得了显著成功,但其幻觉问题严重影响了实际应用。传统的研究主要集中在数据质量上,而本文从因果关系的角度出发,研究了LLMs中的自注意力机制与幻觉之间的关系。文章提出了一种干预自注意力层的方法,通过禁用特定的自注意力层来减轻幻觉问题,并在多个开源LLMs上进行了实验验证。
Read more...本文介绍了Pandemic PACT高级分类引擎(PPACE)及其相关数据集。PPACE是一个经过微调的模型,旨在根据WHO对研究优先级的分类,自动分类资助的生物医学项目研究摘要。这对于监测研究趋势和识别全球卫生准备和响应中的差距至关重要。我们的方法基于人工注释的项目,这些项目根据预定义的列表分配一个或多个类别。然后使用大型语言模型生成解释这些注释原因的“理由”。这种包含专家注释和理由的增强数据随后用于微调一个更小、更高效的模型。作为Pandemic PACT项目的一部分,PPACE支持研究资助者、政策制定者和独立研究人员的明智决策。我们介绍了并发布了训练模型和用于其训练的基于指令的数据集。我们的评估显示,PPACE显著优于其基线模型。PPACE及其相关数据集的发布为多标签生物医学文档分类领域的研究人员提供了宝贵的资源,并支持将生物医学研究与关键全球卫生优先级对齐的进展。
Read more...本文探讨了课程学习(Curriculum Learning, CL)在提升小型代码语言模型性能方面的潜力。尽管先前研究表明课程学习并不一定能提高语言模型的性能,但本文意外地发现,对于代码语言模型,精心设计的课程学习方法能显著提升其在代码执行任务上的准确性,尽管对代码完成任务的影响较小。研究通过训练多个具有100万参数的GPT模型来预测下一个令牌,并在代码完成和执行任务上进行评估。主要贡献包括提出一种结合软件代码度量的新颖代码难度评估指标,探索课程学习对代码语言模型的有效性,并引入一种新颖的课程学习计划,以提高小型解码器专用语言模型在代码执行任务上的性能。研究结果为代码语言模型的课程学习应用开启了更多研究之门。
Read more...本文通过PRISMA指南,从跨学科的法学和人机交互(HCI)视角,系统性地回顾了关于暗模式(dark patterns)监管的讨论。暗模式是指在线界面中用于操纵用户决策过程的设计技巧,引起了公众的关注。然而,关于暗模式的监管研究仍然不发达且分散,特别是在学者对概念、监管范式和解决方案的看法方面。本文分析了65项研究,总结了法律学者对暗模式研究的独特趋势和特征,识别了五个根本问题和三重层次的伤害。本文批评了当前法规在解决暗模式问题上的不足,并批判性地审查了现有的解决方案,包括法律原则的范式转变、现有框架的改进、技术设计嵌入的解决方案以及设计实践的责任措施。研究还讨论了有效暗模式监管的当前障碍,并探讨了有前景的监管解决方案。
Read more...本文探讨了在模型不确定性下如何设计额外奖励以引导多智能体系统向期望策略发展的问题。通过引入基于模型的非情节强化学习框架,本文重点关注学习依赖历史的引导策略以处理智能体学习动态的固有模型不确定性。文章提出了一种新的目标函数,旨在以合理的成本实现良好的引导结果,并从理论上确定了引导策略存在的条件。此外,文章还提供了近似解决目标函数的经验算法,并通过实证评估展示了算法的有效性。
Read more...