"扩展LMMs至大型3D环境:数据图助力机器人搜救任务"
摘要
本文探讨了如何将大型多模态模型(LMMs)扩展到广阔的3D环境中,特别是在搜救任务等机器人部署场景中的应用。当前LMMs面临的主要挑战是模型输入大小的限制,这限制了它们在大型环境中的有效性。为此,本文提出了一种新颖的方法,利用数据图(datagraph)结构和图遍历算法,使LMMs能够迭代查询大型环境中的较小部分,从而提高其在3D场景语言任务中的可扩展性。
Read more...本文探讨了如何将大型多模态模型(LMMs)扩展到广阔的3D环境中,特别是在搜救任务等机器人部署场景中的应用。当前LMMs面临的主要挑战是模型输入大小的限制,这限制了它们在大型环境中的有效性。为此,本文提出了一种新颖的方法,利用数据图(datagraph)结构和图遍历算法,使LMMs能够迭代查询大型环境中的较小部分,从而提高其在3D场景语言任务中的可扩展性。
Read more...本文介绍了一种基于计算树逻辑(CTL)的蒙特卡洛树搜索(MCTS)解释器,旨在提高MCTS在公共交通路线规划中的可解释性。MCTS是一种高效的在线搜索算法,广泛应用于资源分配和交通规划等领域。然而,其复杂性使得非技术背景的用户难以理解。本文提出的解决方案通过将用户定义的需求转化为严格的逻辑规范,并利用CTL进行逻辑验证和定量评估,最终将结果转换为易于理解的自然语言描述。该方法在用户满意度调查中表现优异,显著优于其他基准方法。
Read more...本文探讨了大型语言模型(LLM)在微调过程中的学习动态,通过分析训练示例如何影响模型对其他示例的预测,提供了一种理解深度学习系统行为的强大工具。研究重点是LLM在微调期间的学习动态,通过分解每一步的影响和累积影响,为指令调整和偏好调整等流行算法的训练提供了统一的解释框架。此外,分析不仅解释了这些方法的益处来源,还启发了一种简单有效的方法来进一步提高模型的对齐性能。
Read more...本文由Insung Yang和Jemin Hwangbo共同撰写,探讨了在四足机器人中使用6自由度(6-DoF)机械臂作为尾巴的创新应用。传统研究主要集中在通过附加功能单一的机器人尾巴来增强四足机器人的能力,但这些尾巴存在增加整体重量和成本的问题。本文提出了一种解决方案,即使用多功能机械臂作为尾巴,它不仅能作为尾巴增强机器人的稳定性,还能执行操作任务。研究团队开发了一种基于深度强化学习(DRL)的控制器,用于控制配备机械臂的机器人。实验结果表明,配备机械臂的机器人在快速转向、空中重定向和平衡等任务中表现优于未配备机械臂的机器人。这些发现表明,机械臂可以显著提高四足机器人的敏捷性和稳定性,同时保持其操作能力。
Read more...本文提出了一种用于评估大型语言模型(LLM)使用案例中偏见和公平性的实用框架。该框架允许从业者根据特定LLM使用案例的特征确定应使用的评估指标。文章首先定义了LLM中的偏见和公平性风险,并将其映射到不同类型的使用案例中,然后详细介绍了各种评估这些风险的指标。此外,文章还引入了几种新的偏见和公平性评估指标,包括基于对立事实的指标和基于刻板印象分类器的指标。该框架的实用性在于所有评估指标仅使用LLM的输出进行计算,使得从业者可以轻松应用。
Read more...本文由Daniel Geißler和Paul Lukowicz撰写,题为“利用混合智能实现可持续和节能的机器学习”,探讨了如何通过结合人类认知能力和人工智能(AI)的优势来提升机器学习的可持续性和能源效率。随着大型语言模型(LLM)作为智能代理参与加速机器学习的发展,混合智能成为人机有效交互的重要课题。本文提出了一种通过人机循环(HITL)和LLM代理引入次级知识源的方法,以突出并进一步解决机器学习开发过程中的低效率问题。文章强调了在机器学习模型开发中,除了最终模型性能外,过程本身的效率和能源消耗同样重要,特别是在大规模计算过程中对环境的影响日益显著的背景下。
Read more...本文由Andrea Eirale、Matteo Leonetti和Marcello Chiaberge共同撰写,提出了一种新颖的人工智能方法,用于实现社交机器人导航中的社会感知路径规划。该研究的核心在于识别日常社交场景并调整传统规划器的成本函数,以适应这些场景。这种方法使机器人能够执行不同的社交导航行为,如排队和尊重人群的互动空间,同时保持传统导航的鲁棒性。通过单一学习模型,机器人能够学习多种社交规范,而不是为每个任务设置不同的模块。该方法不仅限于排队和人群互动,还可以扩展到其他不涉及运动的社交活动。
Read more...本文由Yunxiao Shia等人撰写,探讨了如何通过四个模块的协同作用来提升检索增强生成(RAG)系统的质量和效率。RAG技术利用大型语言模型(LLMs)的上下文学习能力,生成更准确和相关的响应。文章提出了Query Rewriter+、Knowledge Filter、Memory Knowledge Reservoir和Retrieval Trigger四个模块,旨在解决单一查询的信息瓶颈、查询模糊性、无关知识检索和冗余检索等问题。这些模块通过实验和消融研究在六个常见的问答数据集上验证了其有效性,显著提高了RAG系统的响应质量和效率。
Read more...本文介绍了一种在离线强化学习(Offline Reinforcement Learning, ORL)中处理奖励信号缺失问题的新方法。在许多实际应用中,由于成本、安全或缺乏精确的模拟环境,与环境的交互必须严格限制,这使得传统的强化学习方法难以应用。本文提出的解决方案是一种简单的奖励模型,能够从非常有限的带有奖励标签的环境转换样本中估计奖励信号。该模型随后用于为大量无奖励标签的转换填补奖励,从而使ORL技术得以应用。实验结果显示,仅使用原始数据集中1%的带有奖励标签的转换,学习到的奖励模型能够为剩余99%的转换填补奖励,从而训练出高性能的代理。
Read more...本文由Dilara Soylu、Christopher Potts和Omar Khattab共同撰写,探讨了在自然语言处理(NLP)系统中,如何通过精细调整(fine-tuning)和提示优化(prompt optimization)来提升多阶段语言模型(LMs)的性能。文章提出了一种新的优化策略,即交替优化提示和模型权重,以解决在缺乏中间阶段金标签的实际场景中的挑战。实验结果显示,这种联合优化方法在多跳问答、数学推理和特征基础分类任务中,相较于单独优化权重或提示,分别实现了高达65%和5%的性能提升。
Read more...