探索AI与艺术的融合:MuDiT/MuSiT框架在口语描述到歌曲生成中的创新应用
摘要
本文探讨了生成式AI与人类艺术创作过程的交叉领域,特别是自动歌曲创作中的人机对齐问题。研究提出了一项新的任务——口语描述到歌曲生成,旨在使生成的内容与人类的口语表达对齐。该任务要求AI模型不仅理解口语语言,还要在听觉表达上与人类期望相符,并符合音乐结构规范。为解决数据稀缺问题,研究团队创建了CaiMD数据集,该数据集由专业音乐家和业余爱好者共同标注,提供了多样化的视角和全面的口语描述理解。此外,研究还提出了一种创新的单阶段框架MuDiT/MuSiT,用于实现歌曲创作中的人机对齐,确保生成的歌曲与用户的期望结果对齐。实验结果显示,MuDiT/MuSiT在性能上优于开源框架,并在与口语歌曲描述的对齐上表现出色。
原理
MuDiT/MuSiT框架的核心在于其能够实现口语描述与听觉音乐感知之间的跨模态理解。该框架利用一个经过微调的大型语言模型(LLM)来生成歌词,并结合一个DiT/SiT模型来生成旋律、和声、节奏、人声和乐器等其他音乐组件。这种方法确保了所有生成的音乐组件在声音上的和谐一致,从而更好地与人类的听觉期望相共鸣。具体来说,MuDiT/MuSiT通过MuChin跨模态编码器将文本描述转换为向量,这些向量与随机噪声连接后输入到DiT/SiT模型中。DiT/SiT模型在变分自编码器(VAE)的潜在空间中操作,生成高质量、结构化的歌曲,最终通过VAE解码器和HIFI-GAN转换为音频文件。
流程
MuDiT/MuSiT的工作流程从用户输入的口语描述开始,通过MuChin编码器转换为描述向量。这些向量与随机噪声连接后,作为DiT/SiT模型的输入。在模型的每个时间步,通过减去预测的噪声,逐步从噪声样本中生成音乐内容。最终,生成的音乐内容在VAE的潜在空间中表示,并通过VAE解码器和HIFI-GAN转换为Mel频谱图,再转换为WAV音频文件。整个过程确保了生成的歌曲在结构和内容上与用户的口语描述高度对齐。
应用
MuDiT/MuSiT框架的应用前景广泛,特别是在音乐创作、娱乐产业和个性化音乐服务等领域。该框架能够根据用户的口语描述生成定制化的音乐作品,满足不同用户的个性化需求。此外,该技术还可以用于音乐教育、音乐治疗和虚拟现实等领域的创新应用,推动音乐与技术的深度融合。
