"突破数据限制:离线强化学习中的奖励填补技术"

Offline Reinforcement Learning with Imputed Rewards

摘要

本文介绍了一种在离线强化学习(Offline Reinforcement Learning, ORL)中处理奖励信号缺失问题的新方法。在许多实际应用中,由于成本、安全或缺乏精确的模拟环境,与环境的交互必须严格限制,这使得传统的强化学习方法难以应用。本文提出的解决方案是一种简单的奖励模型,能够从非常有限的带有奖励标签的环境转换样本中估计奖励信号。该模型随后用于为大量无奖励标签的转换填补奖励,从而使ORL技术得以应用。实验结果显示,仅使用原始数据集中1%的带有奖励标签的转换,学习到的奖励模型能够为剩余99%的转换填补奖励,从而训练出高性能的代理。

Read more...

"联合优化:提升NLP系统性能的新策略"

Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together

摘要

本文由Dilara Soylu、Christopher Potts和Omar Khattab共同撰写,探讨了在自然语言处理(NLP)系统中,如何通过精细调整(fine-tuning)和提示优化(prompt optimization)来提升多阶段语言模型(LMs)的性能。文章提出了一种新的优化策略,即交替优化提示和模型权重,以解决在缺乏中间阶段金标签的实际场景中的挑战。实验结果显示,这种联合优化方法在多跳问答、数学推理和特征基础分类任务中,相较于单独优化权重或提示,分别实现了高达65%和5%的性能提升。

Read more...

"视觉提示引领未来:多模态大型语言模型在传感器数据处理中的创新应用"

By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting

摘要

本文探讨了在多模态大型语言模型(MLLMs)中,通过视觉提示结合传感器数据以解决普遍传感应用中的挑战。传统的文本提示方法在处理长序列传感器数据时性能显著下降。为此,本文提出了一种视觉提示方法,通过设计视觉提示指令,指导MLLMs利用可视化的传感器数据与目标传感任务描述相结合。此外,还引入了一个可视化生成器,自动创建针对特定传感任务的最优可视化,无需预先的任务特定知识。实验结果显示,该方法在九种传感任务中平均提高了10%的准确率,并显著降低了15.8倍的令牌成本,强调了视觉提示在多种传感任务中的有效性和成本效率。

Read more...

"零样本跨语言性能提升:基于LLM的数据增强与有效数据选择"

Boosting Zero-Shot Crosslingual Performance using LLM-Based Augmentations with Effective Data Selection

摘要

本文探讨了如何利用大型语言模型(LLM)的零样本提示生成任务特定数据,以促进低资源目标语言的跨语言迁移。通过在源语言中使用任务特定数据训练教师模型,并利用该模型对LLM生成的数据进行标签化,结合简单的数据选择策略,本文提出了一种有效的数据增强方法。实验结果显示,这种方法在情感分析和自然语言推理任务中显著提高了跨语言迁移的准确性,尤其是在印度语系等低资源语言中。

Read more...

"革新文本到图像生成:通过事实图像检索解决图像幻觉问题"

Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval

摘要

本文探讨了文本到图像生成模型中的一个关键问题——图像幻觉(Image Hallucination),即生成的图像与输入文本提示中的事实信息不一致。文章提出了一种基于事实图像检索的方法,通过从外部源检索相关图像来生成更真实的图像,从而解决这一问题。该方法利用现有的图像编辑工具,如InstructPix2Pix和IP-Adapter,结合检索到的事实图像,有效地纠正了图像生成中的幻觉现象,提高了生成图像的事实准确性和可信度。

Read more...

"预测未来,规避风险:基于时空交通交互分析的轨迹预测新方法"

Risk-aware Trajectory Prediction by Incorporating Spatio-temporal Traffic Interaction Analysis

摘要

本文由Divya Thuremella, Lewis Ince和Lars Kunze共同撰写,题为“Risk-aware Trajectory Prediction by Incorporating Spatio-temporal Traffic Interaction Analysis”。该论文主要探讨了在开放环境中,自主机器人如何通过预测人类行为,特别是在高风险情境下,来减少潜在的碰撞风险。论文提出了一种通过分析数据集中常见的高风险交互位置和速度,来改进高风险情境下预测性能的方法。通过位置和速度的重新加权技术,该方法在大多数可能的最终距离误差(FDE)和核密度估计(KDE)上实现了性能提升,特别是在高速车辆和高风险位置的预测上。

Read more...

“打破强化学习的三大教条:探索智能代理的新范式”

Three Dogmas of Reinforcement Learning

摘要

本文由David Abel等人在2024年RLC会议上发表,题为“Three Dogmas of Reinforcement Learning”。论文主要探讨了现代强化学习(RL)中的三个基本假设或“教条”,并提出需要对这些教条进行重新审视和调整,以推动RL作为智能代理科学研究的整体范式。这些教条包括:过度关注环境模型而非代理、将学习视为任务解决方案的寻找而非适应过程、以及奖励假设,即所有目标都可以通过奖励信号的最大化来合理表达。论文建议放弃前两个教条,并对第三个教条采取更为细致的处理方式,以促进RL在智能代理研究中的全面应用。

Read more...

“高效点云匹配:3D几何形状组装的新前沿”

3D Geometric Shape Assembly via Efficient Point Cloud Matching

摘要

本文介绍了一种名为“Proxy Match Transform (PMT)”的高效高阶特征变换层,用于解决三维几何形状组装中的点云匹配问题。该方法通过在粗粒度和细粒度级别上建立部分形状点云之间的局部对应关系,实现了对大型目标结构的精确组装。PMT层通过避免直接构建内存密集型的成对相关性分数,以次二次复杂度有效地近似传统的高阶特征变换,从而在保持低成本的同时实现可靠的匹配。基于PMT,本文提出了一种新的框架“Proxy Match TransformeR (PMTR)”,并在大规模的3D几何形状组装基准数据集上展示了其优于现有方法的性能和效率。

Read more...

**创新突破:半监督学习在3D牙齿分割中的应用**

A Multi-Stage Framework for 3D Individual Tooth Segmentation in Dental CBCT

摘要

本文介绍了一种用于牙科CBCT(锥束计算机断层扫描)中3D牙齿分割的多阶段框架。该框架在“半监督牙齿分割”3D(STS-3D)挑战赛中获得第三名,显著提高了牙齿分割的准确性和效率。传统的深度学习方法需要大量标注数据,而本文提出的方法通过半监督学习和领域适应技术,减少了数据标注的需求,同时提高了模型在不同设备数据上的泛化能力。

Read more...

AdapTable:表格数据测试时适应的新方法

AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler

摘要

本文介绍了一种针对表格数据的测试时适应(TTA)方法,名为AdapTable。在现实应用中,表格数据由于其广泛性和丰富性,经常面临分布偏移的问题,导致预训练的机器学习模型预测错误。然而,由于表格数据的独特挑战,如属性的多样性和数据集大小的变化,以及深度学习模型在表格数据表示学习能力上的局限性,这一领域的分布偏移问题相对未被充分探索。特别是,随着测试时适应(TTA)这一新兴范式的出现,我们观察到直接采用其他领域的常用TTA方法往往导致模型崩溃。本文系统地探讨了表格数据测试时适应的挑战,并基于这些洞察,提出了一种新颖的表格测试时适应方法AdapTable,该方法通过估计目标标签分布并基于校准的不确定性调整初始概率,直接修改输出概率。在自然分布偏移和合成损坏的广泛实验中,证明了所提出方法的适应效能。

Read more...
Previous Page 3 of 156 Next Page