"TADPoLe:利用文本感知扩散模型实现零样本策略学习"

Text-Aware Diffusion for Policy Learning

摘要

本文介绍了一种名为Text-Aware Diffusion for Policy Learning (TADPoLe)的新型强化学习框架,该框架利用预训练的、冻结的文本条件扩散模型来计算密集的零样本奖励信号,以支持文本对齐的策略学习。TADPoLe的提出是为了解决在缺乏专家演示的情况下,通过强化学习训练代理实现特定目标或执行所需行为时,需要手动设计适当的奖励函数的问题。该方法假设大规模预训练生成模型编码了丰富的先验知识,可以监督策略不仅以文本对齐的方式行为,而且与从互联网规模训练数据中总结的自然性概念相一致。实验证明,TADPoLe能够在Humanoid和Dog环境中,以及Meta-World环境中的机器人操作任务中,学习由自然语言指定的新的目标达成和连续运动行为。这些行为是在没有地面真实奖励或专家演示的情况下零样本学习的,并且在人类评估中被认为在质量上更自然。

Read more...

"VLM-PC:革新四足机器人自主导航的未来技术"

Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models

摘要

本文介绍了一种名为VLM-Predictive Control (VLM-PC)的系统,该系统利用视觉-语言模型(VLMs)的常识推理能力,使四足机器人能够适应各种复杂的现实环境。VLM-PC通过结合上下文适应和未来技能规划两个关键组件,使机器人能够在没有详细人类指导的情况下,自主感知、导航和行动。研究团队在Go1四足机器人上进行了多项挑战性实验,结果显示VLM-PC显著提高了机器人在复杂环境中的自主导航能力。

Read more...

"WARP-CA:革命性的野火自主响应与预测模型"

Wildfire Autonomous Response and Prediction Using Cellular Automata (WARP-CA)

摘要

本文介绍了一种名为WARP-CA(Wildfire Autonomous Response and Prediction Using Cellular Automata)的新型模型,旨在解决野火预测和响应的挑战。该模型结合了Perlin噪声生成地形和细胞自动机(CA)模拟野火蔓延,探索了多智能体强化学习(MARL)在模拟自主代理(如无人机和无人地面车辆)中的应用,以实现高效的野火抑制。研究方法包括世界模拟技术、MARL中的涌现行为研究,并重点关注环境因素如风模式和地形特征对火行为的影响。

Read more...

"专家专业化微调:稀疏架构大型语言模型的参数高效定制"

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

摘要

本文探讨了在资源受限的情况下,如何通过参数高效的微调(PEFT)方法定制大型语言模型(LLMs),特别是在稀疏架构的LLMs中。尽管已有多种针对密集架构LLMs的PEFT方法,但稀疏架构LLMs的PEFT研究仍不足。本文主要研究了具有混合专家(MoE)架构的LLMs的PEFT方法,并提出了专家专业化微调(ESFT),该方法仅微调与下游任务最相关的专家,同时冻结其他专家和模块的参数。实验结果表明,ESFT不仅提高了微调效率,而且在性能上与全参数微调相当甚至更优。此外,本文还分析了MoE架构对专家专业化微调的影响,发现具有更细粒度专家的MoE模型在选择与下游任务最相关的专家组合时更具优势,从而提高了训练效率和有效性。

Read more...

"交互式任务分解:提升AI辅助数据分析的指导与验证"

Improving Steering and Verification in AI-Assisted Data Analysis with Interactive Task Decomposition

摘要

本文介绍了一种改进人工智能辅助数据分析中指导和验证过程的新方法,通过交互式任务分解技术,特别是在数据分析编程领域,该领域需要数据处理、编程和统计方面的专业知识。研究团队开发了两种对比方法:Stepwise和Phasewise,分别将问题分解为逐步子目标和逻辑阶段,以提高用户对AI生成结果的控制和验证能力。通过对比实验,用户报告在使用Stepwise和Phasewise系统时,干预、修正和验证过程更为容易,相较于传统的对话式基线系统,用户感受到更大的控制力和更简便的验证过程。研究结果为AI辅助数据分析工具的设计提供了指导和权衡的建议。

Read more...

"创新在线学习策略:构建成本效益高的代理奖励模型以优化大型语言模型"

Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning

摘要

本文探讨了在大型语言模型(LLM)中使用人类反馈的强化学习(RLHF)时,如何通过构建成本效益高的代理奖励模型来有效利用有限的标注数据和专家查询预算。传统的RLHF方法依赖于离线偏好数据集,而本文提出的方法转向在线设置,利用少量标注种子数据和大量未标注提示,通过模型生成的响应和高质量的奖励/偏好反馈迭代构建新的偏好数据。文章提出了两种关键创新:(1)在策略查询以避免种子数据中的分布外(OOD)和不平衡问题;(2)主动学习选择最具有信息量的数据进行偏好查询。这些方法使得在仅使用极少量的专家标注数据的情况下,能够有效地标注出九倍多的偏好对,用于进一步的RLHF训练。例如,使用直接偏好优化(DPO)方法,模型在AlpacaEval2、MMLU5shot和MMLU-0shot指标上平均提升了超过1%,而查询成本仅为1.7K。

Read more...

"创新结合在线策略与主动学习:构建成本效益高的代理奖励模型"

Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning

摘要

本文探讨了在强化学习与人类反馈(RLHF)中,如何利用有限的标记数据和专家查询预算构建成本效益高的代理奖励模型。传统的RLHF方法依赖于离线偏好数据集,而本文提出的方法通过在线设置,使用少量标记种子数据和大量未标记提示,迭代构建新的偏好数据。文章介绍了两种关键创新:在线策略查询以避免种子数据中的分布外和失衡问题,以及主动学习选择最具信息量的数据进行偏好查询。实验结果显示,这种方法能够用最少的专家标记数据训练评估模型,进而有效地标记九倍多的偏好对,用于进一步的RLHF训练。

Read more...

"创新路径规划:基于演员-评论家强化学习的中点预测方法"

Generation of Geodesics with Actor-Critic Reinforcement Learning to Predict Midpoints

摘要

本文提出了一种基于演员-评论家强化学习方法来预测中点并生成测地线(最短路径)的新框架。该方法适用于具有无穷小定义度量的连续流形上的所有点对的最短路径查找。通过递归预测中点并结合演员-评论家方法,该方法在局部和全局路径规划任务中均优于现有方法。文章通过理论证明和实验验证了该方法的有效性,并展示了其在多个实际应用场景中的潜力。

Read more...

"在噪声世界中学习:机器翻译中的自校正数据噪声处理"

How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise on Machine Translation

摘要

本文探讨了在机器翻译训练中处理大规模网络挖掘并行数据中存在的噪声问题。主要噪声来源是语义错位,这给训练高质量的机器翻译系统带来了挑战。文章首先通过模拟真实世界中难以检测的语义错位噪声,量化分析了其对机器翻译性能的影响,并指出广泛使用的预过滤器在提高翻译性能方面的局限性。接着,文章提出了一种自校正方法,该方法利用模型在训练过程中的预测分布来逐步修正训练监督信号,从而在模拟和真实世界的噪声数据集上均显示出对机器翻译性能的显著提升。

Read more...

"大型语言模型在移动机器人路径规划中的革命性应用"

Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models

摘要

本文由Xiangrui Kong等人在《Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models》中提出,探讨了大型语言模型(LLMs)在移动机器人覆盖路径规划中的应用。文章核心在于提出一种基于LLMs的多层路径规划框架,旨在解决高层次的覆盖路径规划问题及低层次的控制问题。该框架通过利用LLMs的自然语言理解和生成能力,显著提升了路径规划的效率和准确性。实验结果表明,该框架能够增强LLMs在二维平面推理能力,并有效完成覆盖路径规划任务。

Read more...
Previous Page 89 of 156 Next Page