“CUE-DETR:利用对象检测技术革新DJ混音的提示点估计”
摘要
本文由Giulia Argüello、Luca A. Lanzendörfer和Roger Wattenhofer三位作者共同撰写,题为“CUE POINT ESTIMATION USING OBJECT DETECTION”,探讨了在DJ混音中自动估计提示点(cue points)的新方法。提示点在音乐过渡中指示可能的时间边界,对自主DJ系统和现场混音至关重要。本文提出的解决方案将提示点估计视为计算机视觉中的对象检测任务,基于预训练的对象检测变换器(DETR)进行微调,并使用了一个新的大型提示点数据集EDM-CUE,该数据集包含21k手动注释的提示点,比先前的数据集大35倍。该方法无需低级音乐信息分析,且在提示点位置检索中显示出更高的精度,并能高度符合电子舞曲中的高级音乐结构(phrasing)。
原理
本文提出的CUE-DETR系统基于DETR(一种预训练的对象检测变换器),通过生成Mel频谱图作为输入,利用128个Mel频带和特定的窗口及跳跃长度来处理音频数据。模型通过预测边界框的位置编码、置信度分数和类别标签来识别提示点。在训练过程中,模型仅处理包含提示点的图像片段,而在推理过程中,模型通过滑动窗口策略处理完整的频谱图。模型的输出经过后处理,包括将位置编码转换为像素坐标,并根据置信度分数选择最终的提示点候选。
流程
CUE-DETR的工作流程包括数据预处理、模型训练和后处理三个主要阶段。在预处理阶段,输入的音频数据被转换为Mel频谱图,并根据提示点位置切割成训练图像片段。在训练阶段,模型使用这些图像片段进行学习,每个提示点由一个边界框表示。在推理阶段,模型通过滑动窗口处理完整的频谱图,并输出预测的提示点位置。后处理阶段包括将模型输出转换为时间戳,并根据置信度分数和半径选择最终的提示点。
应用
CUE-DETR的应用前景广泛,特别适用于自主DJ系统和现场混音环境,能够显著简化DJ在准备和播放混音时的操作流程。此外,该技术还可扩展到音乐信息检索(MIR)的其他任务,如节拍检测和音乐结构分析,为音乐制作和表演提供更多自动化支持。
