"从粗到细:一种高效的强化学习框架在机器人操作中的应用"

Continuous Control with Coarse-to-fine Reinforcement Learning

摘要

本文介绍了一种名为“Coarse-to-fine Reinforcement Learning (CRL)”的框架,旨在提高强化学习(RL)算法在实际环境中部署的样本效率。CRL通过逐步细化连续动作空间的方式,使得基于价值的RL算法能够有效地应用于细粒度的连续控制任务。论文中提出的具体算法“Coarse-to-fine Q-Network (CQN)”在多个稀疏奖励的视觉机器人操作任务中表现出色,显著优于传统的RL和行为克隆基线,且在实际操作任务中仅需几分钟的在线训练即可学习解决任务。

Read more...

"公理训练:教授Transformer因果推理的新范式"

Teaching Transformers Causal Reasoning through Axiomatic Training

摘要

本文探讨了文本型AI系统在现实世界中交互时因果推理的重要性。由于干预性数据生成成本高昂,研究了代理如何从被动数据中学习因果推理。具体而言,提出了一种基于公理训练的设置,其中代理通过多个因果公理(或规则)的演示来学习,而不是将公理作为归纳偏差或从数据值中推断。关键问题在于代理是否能从公理演示中泛化到新场景。例如,如果一个transformer模型在小型图上训练了因果传递性公理的演示,它是否能泛化到大型图上的传递性公理应用?基于一种新颖的公理训练方案的结果表明,这种泛化是可能的。考虑了在给定因果图结构的情况下推断一个变量是否导致另一个变量的任务。发现一个6700万参数的transformer模型,在训练了线性因果链(以及一些噪声变体)后,可以很好地泛化到新的图类型,包括更长的因果链、逆序的因果链和带有分支的图;即使在未明确针对这些设置进行训练的情况下也是如此。我们的模型性能与许多大型语言模型如GPT-4、Gemini Pro和Phi-3相当(甚至更好)。总体而言,我们的公理训练框架提供了一种从被动数据中学习因果推理的新范式,只要能够生成足够的演示,就可以用于学习任意公理。

Read more...

"创新残差网络架构:深度学习在偏微分方程求解中的稳定性和效率提升"

Stable Weight Updating: A Key to Reliable PDE Solutions Using Deep Learning

摘要

本文介绍了一种新颖的深度学习方法,旨在通过引入残差网络架构来提高解决偏微分方程(PDEs)的稳定性和效率。传统的神经网络在处理非线性和时间依赖的PDEs时面临稳定性和效率的挑战。为此,本文提出了一种基于残差的网络架构,包括简单高速公路网络(Simple Highway Network)和平方残差网络(Squared Residual Network),这些架构通过引入残差连接来增强传统神经网络的稳定性和反向传播效率。通过广泛的数值实验,本文展示了这些新架构在处理线性和非线性、时间依赖和独立PDEs时的有效性,特别是在平方残差网络中观察到了更高的稳定性和准确性。这些发现强调了残差网络架构在推进深度学习应用于PDEs和计算物理学领域的潜力。

Read more...

"创新视频对象分割技术:融合空间-语义特征与判别性查询"

Learning Spatial-Semantic Features for Robust Video Object Segmentation

摘要

本文提出了一种鲁棒的视频对象分割框架,该框架利用空间-语义特征和判别性对象查询来解决长期视频中由于遮挡、背景杂乱和目标部分模糊导致的身份混淆问题。具体而言,构建了一个包含语义嵌入块和空间依赖性建模块的空间-语义网络,以关联预训练的ViT特征与全局语义特征和局部空间特征,提供全面的目标表示。此外,开发了一个掩码交叉注意力模块,以在查询传播期间生成聚焦于目标对象最具判别性部分的对象查询,减轻噪声积累并确保有效的长期查询传播。实验结果表明,该方法在多个数据集上达到了新的最先进性能,证明了其有效性和泛化能力。

Read more...

"利用候选标签进行视觉-语言模型微调:提示对齐框架的创新应用"

Tuning Vision-Language Models with Candidate Labels by Prompt Alignment

摘要

本文探讨了在视觉-语言模型(VLMs)中使用候选标签进行提示学习的问题。传统的提示学习方法依赖于精确的标签数据,这在实际应用中由于数据隐私或敏感性问题可能难以获取。本文首次研究了在仅能获得包含真实标签的候选标签集的情况下,如何有效地进行提示学习。研究者提出了一种新的框架,通过动态混合由可学习提示和手工提示预测的类别后验概率,并将其与模型输出对齐,从而提高模型在处理候选标签时的鲁棒性。实验证明,该框架在多个基准数据集上显著提升了性能,尤其是在标签模糊度较高的情况下。

Read more...

"利用提示对齐优化视觉-语言模型在候选标签下的微调"

Tuning Vision-Language Models with Candidate Labels by Prompt Alignment

摘要

本文探讨了在实际应用中,由于数据隐私或敏感性问题,可能只能获取包含真实标签的候选标签集合而非确切标签的情况下,如何通过提示学习(Prompt Learning)对视觉-语言模型(Vision-Language Models, VLMs)进行微调。文章首次研究了在仅能获取候选标签的情况下,提示学习相较于其他微调方法的优势,并提出了一种新的框架,通过动态混合由手工提示和可学习提示共同预测的类别后验概率,并将其与模型输出对齐,以提高模型在处理候选标签时的鲁棒性。实验结果表明,该框架在多个基准数据集上显著提升了性能。

Read more...

"利用稀疏车联网数据实现高效交通状态估计:CRNet模型的创新与应用"

Spatial-Temporal Attention Model for Traffic State Estimation with Sparse Internet of Vehicles

摘要

本文介绍了一种利用稀疏车联网(IoV)数据进行交通状态估计(TSE)的新框架,该框架在智能交通系统(ITS)中具有重要作用。传统的TSE依赖于路边传感器和摄像头,但这些方法成本高且覆盖范围有限。本文提出的框架通过利用部分IoV数据,避免了大规模数据收集和处理的巨大开销。特别地,本文提出了一种新颖的空间-时间注意力模型——卷积保持网络(CRNet),通过挖掘交通状态的空间-时间相关性来提高TSE的准确性。该模型结合了卷积神经网络(CNN)和基于注意力的保持网络(RetNet),通过大量真实世界IoV数据集的模拟验证了其成本效益和实用性。

Read more...

"探索未来交互:LLMs在Wizard of Oz实验中的创新应用与评估"

On LLM Wizards: Identifying Large Language Models" Behaviors for Wizard of Oz Experiments

摘要

本文探讨了在Wizard of Oz (WoZ)实验中使用大型语言模型(LLMs)作为“巫师”的可行性和方法论。传统的WoZ方法涉及人类巫师模拟尚未实现的技术与参与者互动,以收集用户行为和设计空间的数据。随着LLMs在角色扮演能力的增强,本文提出了一种新的实验生命周期,允许研究人员安全地将LLMs集成到WoZ实验中,并通过两个案例研究展示了这一过程。此外,本文还贡献了一个基于启发式的评估框架,用于评估LLMs在WoZ实验中的角色扮演能力,揭示其行为模式和潜在的失败模式。

Read more...

"揭秘大型语言模型评估中的隐秘优势:测试任务训练的影响与调整"

Training on the Test Task Confounds Evaluation and Emergence

摘要

本文探讨了大型语言模型评估中的一个基本问题,即“测试任务训练”(training on the test task)。与训练测试数据、数据泄露或数据污染等不当行为不同,测试任务训练是指在语言模型的预训练阶段包含与任务相关的数据的一系列技术。文章通过实验证明,测试任务训练会混淆相对模型评估和关于模型涌现能力的声明。为了解决这一问题,作者提出了一种有效的方法,即在评估前对每个模型进行相同的任务相关数据微调。实验结果显示,一旦调整了测试任务训练的影响,模型间的性能差异和涌现行为实例大多消失。这一研究对大型语言模型的基准测试和涌现能力研究具有广泛的影响。

Read more...

"球面神经表面:开启神经几何处理的新纪元"

Neural Geometry Processing via Spherical Neural Surfaces

摘要

本文由University College London的Romy Williamson和Niloy J. Mitra共同撰写,提出了一种基于球面神经表面的新型几何处理方法。该方法通过将输入的零亏格(genus-0)表面编码为过拟合的神经网络,并在此基础上定义了一系列几何操作符,如几何雅可比矩阵、第一和第二基本形式,从而计算曲率。此外,文章还定义了一个直接使用神经表示的Laplace-Beltrami算子,使得能够在表面上的标量(或向量)场上进行处理和光谱分析,避免了传统表面表示(如多边形网格)中常见的非必要离散化。

Read more...
Previous Page 26 of 156 Next Page