"视觉提示引领未来:多模态大型语言模型在传感器数据处理中的创新应用"

By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting

摘要

本文探讨了在多模态大型语言模型(MLLMs)中,通过视觉提示结合传感器数据以解决普遍传感应用中的挑战。传统的文本提示方法在处理长序列传感器数据时性能显著下降。为此,本文提出了一种视觉提示方法,通过设计视觉提示指令,指导MLLMs利用可视化的传感器数据与目标传感任务描述相结合。此外,还引入了一个可视化生成器,自动创建针对特定传感任务的最优可视化,无需预先的任务特定知识。实验结果显示,该方法在九种传感任务中平均提高了10%的准确率,并显著降低了15.8倍的令牌成本,强调了视觉提示在多种传感任务中的有效性和成本效率。

Read more...

"零样本跨语言性能提升:基于LLM的数据增强与有效数据选择"

Boosting Zero-Shot Crosslingual Performance using LLM-Based Augmentations with Effective Data Selection

摘要

本文探讨了如何利用大型语言模型(LLM)的零样本提示生成任务特定数据,以促进低资源目标语言的跨语言迁移。通过在源语言中使用任务特定数据训练教师模型,并利用该模型对LLM生成的数据进行标签化,结合简单的数据选择策略,本文提出了一种有效的数据增强方法。实验结果显示,这种方法在情感分析和自然语言推理任务中显著提高了跨语言迁移的准确性,尤其是在印度语系等低资源语言中。

Read more...

"革新文本到图像生成:通过事实图像检索解决图像幻觉问题"

Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval

摘要

本文探讨了文本到图像生成模型中的一个关键问题——图像幻觉(Image Hallucination),即生成的图像与输入文本提示中的事实信息不一致。文章提出了一种基于事实图像检索的方法,通过从外部源检索相关图像来生成更真实的图像,从而解决这一问题。该方法利用现有的图像编辑工具,如InstructPix2Pix和IP-Adapter,结合检索到的事实图像,有效地纠正了图像生成中的幻觉现象,提高了生成图像的事实准确性和可信度。

Read more...

"预测未来,规避风险:基于时空交通交互分析的轨迹预测新方法"

Risk-aware Trajectory Prediction by Incorporating Spatio-temporal Traffic Interaction Analysis

摘要

本文由Divya Thuremella, Lewis Ince和Lars Kunze共同撰写,题为“Risk-aware Trajectory Prediction by Incorporating Spatio-temporal Traffic Interaction Analysis”。该论文主要探讨了在开放环境中,自主机器人如何通过预测人类行为,特别是在高风险情境下,来减少潜在的碰撞风险。论文提出了一种通过分析数据集中常见的高风险交互位置和速度,来改进高风险情境下预测性能的方法。通过位置和速度的重新加权技术,该方法在大多数可能的最终距离误差(FDE)和核密度估计(KDE)上实现了性能提升,特别是在高速车辆和高风险位置的预测上。

Read more...

“打破强化学习的三大教条:探索智能代理的新范式”

Three Dogmas of Reinforcement Learning

摘要

本文由David Abel等人在2024年RLC会议上发表,题为“Three Dogmas of Reinforcement Learning”。论文主要探讨了现代强化学习(RL)中的三个基本假设或“教条”,并提出需要对这些教条进行重新审视和调整,以推动RL作为智能代理科学研究的整体范式。这些教条包括:过度关注环境模型而非代理、将学习视为任务解决方案的寻找而非适应过程、以及奖励假设,即所有目标都可以通过奖励信号的最大化来合理表达。论文建议放弃前两个教条,并对第三个教条采取更为细致的处理方式,以促进RL在智能代理研究中的全面应用。

Read more...

“高效点云匹配:3D几何形状组装的新前沿”

3D Geometric Shape Assembly via Efficient Point Cloud Matching

摘要

本文介绍了一种名为“Proxy Match Transform (PMT)”的高效高阶特征变换层,用于解决三维几何形状组装中的点云匹配问题。该方法通过在粗粒度和细粒度级别上建立部分形状点云之间的局部对应关系,实现了对大型目标结构的精确组装。PMT层通过避免直接构建内存密集型的成对相关性分数,以次二次复杂度有效地近似传统的高阶特征变换,从而在保持低成本的同时实现可靠的匹配。基于PMT,本文提出了一种新的框架“Proxy Match TransformeR (PMTR)”,并在大规模的3D几何形状组装基准数据集上展示了其优于现有方法的性能和效率。

Read more...

**创新突破:半监督学习在3D牙齿分割中的应用**

A Multi-Stage Framework for 3D Individual Tooth Segmentation in Dental CBCT

摘要

本文介绍了一种用于牙科CBCT(锥束计算机断层扫描)中3D牙齿分割的多阶段框架。该框架在“半监督牙齿分割”3D(STS-3D)挑战赛中获得第三名,显著提高了牙齿分割的准确性和效率。传统的深度学习方法需要大量标注数据,而本文提出的方法通过半监督学习和领域适应技术,减少了数据标注的需求,同时提高了模型在不同设备数据上的泛化能力。

Read more...

AdapTable:表格数据测试时适应的新方法

AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler

摘要

本文介绍了一种针对表格数据的测试时适应(TTA)方法,名为AdapTable。在现实应用中,表格数据由于其广泛性和丰富性,经常面临分布偏移的问题,导致预训练的机器学习模型预测错误。然而,由于表格数据的独特挑战,如属性的多样性和数据集大小的变化,以及深度学习模型在表格数据表示学习能力上的局限性,这一领域的分布偏移问题相对未被充分探索。特别是,随着测试时适应(TTA)这一新兴范式的出现,我们观察到直接采用其他领域的常用TTA方法往往导致模型崩溃。本文系统地探讨了表格数据测试时适应的挑战,并基于这些洞察,提出了一种新颖的表格测试时适应方法AdapTable,该方法通过估计目标标签分布并基于校准的不确定性调整初始概率,直接修改输出概率。在自然分布偏移和合成损坏的广泛实验中,证明了所提出方法的适应效能。

Read more...

Arena Learning:通过模拟聊天机器人竞技场构建LLMs后训练数据飞轮

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

摘要

本文介绍了一种名为Arena Learning的创新方法,旨在通过模拟聊天机器人竞技场(Chatbot Arena)来评估大型语言模型(LLMs)的有效性。传统的在线Chatbot Arena评估方法受限于人工标注的成本和时间。Arena Learning采用AI驱动的标注方式,通过模拟竞技场战斗来评估战斗结果,从而实现目标模型的持续改进。该方法包括两个关键元素:一是通过WizardArena管道确保离线模拟与在线竞赛之间的一致性;二是基于战斗结果不断改进训练数据。实验结果表明,Arena Learning能够显著提升目标模型WizardLM-β的性能,为LLMs的后训练提供了一个高效、自动化的训练和评估管道。

Read more...

BandControlNet:基于并行Transformer的精细可控流行音乐生成模型

BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features

摘要

本文介绍了一种名为BandControlNet的创新型条件生成模型,该模型基于并行Transformer架构,用于生成高质量的流行音乐样本,并能够根据给定的时空控制特征进行精细调节。BandControlNet通过引入时空特征作为强大的细粒度控制,增强了生成模型的可控性。此外,设计了一种名为REMI Track的高效音乐表示方法,将多轨音乐转换为多个并行音乐序列,并通过字节对编码(BPE)技术缩短每个轨道的序列长度。BandControlNet包含两个特别设计的模块:结构增强自注意力(SE-SA)和跨轨道Transformer(CTT),分别用于加强音乐结构和轨道间和谐建模。实验结果表明,BandControlNet在大多数客观指标上优于其他条件音乐生成模型,特别是在生成长音乐样本时表现出强大的鲁棒性。主观评估显示,BandControlNet在短数据集上训练后生成的音乐质量与最先进模型相当,而在长数据集上训练后显著优于所有基准模型。

Read more...
Previous Page 3 of 156 Next Page