“CUE-DETR:利用对象检测技术革新DJ混音的提示点估计”

Cue Point Estimation using Object Detection

摘要

本文由Giulia Argüello、Luca A. Lanzendörfer和Roger Wattenhofer三位作者共同撰写,题为“CUE POINT ESTIMATION USING OBJECT DETECTION”,探讨了在DJ混音中自动估计提示点(cue points)的新方法。提示点在音乐过渡中指示可能的时间边界,对自主DJ系统和现场混音至关重要。本文提出的解决方案将提示点估计视为计算机视觉中的对象检测任务,基于预训练的对象检测变换器(DETR)进行微调,并使用了一个新的大型提示点数据集EDM-CUE,该数据集包含21k手动注释的提示点,比先前的数据集大35倍。该方法无需低级音乐信息分析,且在提示点位置检索中显示出更高的精度,并能高度符合电子舞曲中的高级音乐结构(phrasing)。

Read more...

“Lookback Lens:利用注意力映射检测和缓解大型语言模型中的上下文幻觉”

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

摘要

本文介绍了一种名为“Lookback Lens”的新方法,用于检测和缓解大型语言模型(LLMs)中的上下文幻觉问题。上下文幻觉是指LLMs在总结文章或回答问题时,生成与输入上下文不符的错误信息。Lookback Lens通过分析LLMs的注意力权重,特别是关注模型在生成新内容时对上下文信息的依赖程度,来识别这些幻觉。该方法的核心是一个基于注意力权重比率的线性分类器,能够有效地跨任务和模型进行迁移,无需重新训练。此外,Lookback Lens还被用于指导解码过程,以减少幻觉的产生,例如在XSum总结任务中减少了9.6%的幻觉。

Read more...

【前沿技术】OptLLM:大型语言模型与优化求解器的完美结合,开启智能决策新纪元!

Solving General Natural-Language-Description Optimization Problems with Large Language Models

摘要

本文介绍了一种名为OptLLM的创新框架,该框架利用大型语言模型(LLMs)与外部求解器相结合,自动化地建模和解决优化问题。OptLLM能够接受自然语言描述的用户查询,将其转换为数学公式和编程代码,并通过外部求解器计算结果以辅助决策。此外,OptLLM支持多轮对话,逐步精炼优化问题的建模和求解过程。通过在三种典型的优化应用中进行实验,证明了OptLLM的有效性,并且通过微调的模型在准确性上超过了基于提示的模型。

Read more...

AI vs 人类:律师如何看待自动生成的法律文件?

It Cannot Be Right If It Was Written by AI: On Lawyers" Preferences of Documents Perceived as Authored by an LLM vs a Human

摘要

本文探讨了律师对由大型语言模型(LLM)生成的法律文件与人类撰写的法律文件的感知差异。研究旨在应对LLM技术进步带来的法律文件自动化生成趋势,并提供关键见解,以促进负责任的设计、开发和采用。通过让75名律师评估标记为AI生成或人类撰写的文件的正确性和语言质量,研究发现律师普遍偏好人类撰写的文件。尽管如此,大多数参与者预期未来法律文件将实现自动化生成。这些发现对法律实践者、政策制定者和立法者具有重要意义,有助于推动关于如何更新法律流程以反映最新技术发展的必要讨论。

Read more...

AnyTaskTune:引领大型语言模型向特定领域精准微调的新纪元

AnyTaskTune: Advanced Domain-Specific Solutions through Task-Fine-Tuning

摘要

本文介绍了一种名为AnyTaskTune的新型微调方法,旨在通过任务特定的微调提升大型语言模型(LLMs)在特定领域任务中的性能。该方法通过精心识别和定义领域内的子任务,并创建专门的增强数据集进行微调,从而优化模型在特定任务上的表现。研究在法律、金融、医疗保健等多个领域进行了广泛的微调实验,并计划开源这些双语任务数据集,以促进社区的进一步研究和应用。实验结果表明,使用AnyTaskTune方法微调的模型在特定任务上不仅表现优异,而且在各自领域内显著超越了具有更高通用能力的模型。

Read more...

CorMulT:引领多模态情感分析的新纪元

CorMulT: A Semi-supervised Modality Correlation-aware Multimodal Transformer for Sentiment Analysis

摘要

本文介绍了一种名为Correlation-aware Multimodal Transformer (CorMulT)的半监督多模态情感分析模型。该模型针对现有方法在处理弱相关多模态数据时性能不佳的问题,提出了一种两阶段的学习框架。在预训练阶段,通过模态相关对比学习模块有效地学习不同模态间的相关系数。在预测阶段,将学习到的相关系数与模态表示融合,以进行情感预测。实验结果表明,CorMulT在CMU-MOSEI数据集上显著超越了现有的多模态情感分析方法。

Read more...

CrowdTransfer:开启AIoT社区的人群知识转移之门

CrowdTransfer: Enabling Crowd Knowledge Transfer in AIoT Community

摘要

本文介绍了一种新的知识转移概念,即面向AIoT社区的人群知识转移(CrowdTransfer),它利用从人群中的源AIoT代理学习到的先验知识来解决大多数AIoT场景面临的挑战,如资源受限、环境动态和增量任务等。CrowdTransfer是传统转移学习的扩展,旨在促进AIoT代理的自学习、自适应和持续进化,以实现各种AIoT应用。本文从人群智能的角度阐述了CrowdTransfer的主要特点,介绍了四种转移模式:推导模式、共享模式、进化模式和融合模式。随后,本文对CrowdTransfer进行了概述,并从三个方面介绍了知识转移方法的最新进展:代理内知识转移、去中心化代理间知识转移和中心化代理间知识转移。此外,本文还研究了一些可以从CrowdTransfer中受益的AIoT应用,如人类活动识别、城市计算、联网车辆、多机器人系统和智能工厂。基于对现有知识转移研究的全面分析,本文讨论了CrowdTransfer的开放问题和未来方向。

Read more...

Deep-Motion-Net:革命性的图神经网络技术,实现单一X射线图像的3D器官形状重建

Deep-Motion-Net: GNN-based volumetric organ shape reconstruction from single-view 2D projections

摘要

本文介绍了一种名为Deep-Motion-Net的创新方法,该方法利用图神经网络(GNN)从单一的任意角度2D X射线图像中重建3D(体积)器官形状。在放射治疗过程中,准确估计和补偿真实解剖运动对于提高计划辐射剂量传递至目标体积同时保护风险器官至关重要。Deep-Motion-Net通过学习从kV图像中提取的深度特征到患者特定模板网格的回归映射,实现了这一目标。该模型在合成呼吸运动场景和实际治疗图像上进行了定量和定性测试,显示出高精度的预测能力,为实时适应性放射治疗提供了新的可能性。

Read more...

FedClust: 利用权重驱动的客户端聚类优化联邦学习中的数据异质性问题

FedClust: Tackling Data Heterogeneity in Federated Learning through Weight-Driven Client Clustering

摘要

本文介绍了一种名为FedClust的新型聚类联邦学习方法,旨在解决联邦学习中的数据异质性问题。联邦学习(FL)是一种分布式机器学习范式,允许多个设备在不共享本地数据的情况下协作训练模型。然而,不同设备上的数据分布不均匀,违反了传统机器学习中独立同分布(IID)的假设,导致模型性能下降。FedClust通过利用客户端本地模型权重与数据分布之间的相关性,将客户端分组为一次性聚类,从而有效地解决了这一问题。实验结果表明,FedClust在多个基准数据集上实现了高达45%的模型精度提升,并且通信成本显著降低,收敛速度更快。

Read more...

GvSeg:革命性的通用视频分割框架,引领多任务处理新纪元

General and Task-Oriented Video Segmentation

摘要

本文介绍了一种名为GvSeg的通用视频分割框架,该框架能够处理四种不同的视频分割任务(实例分割、语义分割、全景分割和示例引导分割),同时保持相同的架构设计。当前趋势是开发能够跨多个任务应用的通用视频分割解决方案,以简化研究和部署。然而,现有的高度统一框架可能会忽略不同任务之间的固有差异,导致性能不佳。GvSeg通过提供对分割目标的整体解耦和建模,从外观、位置和形状的角度彻底检查它们,并在此基础上重新制定查询初始化、匹配和采样策略,以适应任务特定的需求。这些与架构无关的创新使GvSeg能够有效地解决每个独特任务,通过容纳它们特有的属性。在七个黄金标准基准数据集上的广泛实验表明,GvSeg在四种不同的视频分割任务上超越了所有现有的专用/通用解决方案。

Read more...
Previous Page 36 of 156 Next Page