探索无偏预训练与掩码微调:Adversarial-MidiBERT在符号音乐理解中的突破
摘要
本文介绍了一种名为Adversarial-MidiBERT的符号音乐理解模型,该模型基于无偏预训练和掩码微调技术。在音乐信息检索(MIR)领域中,符号音乐理解(SMU)是一个重要的研究方向,它可以帮助音乐家和业余爱好者学习和创作音乐。由于符号音乐与自然语言的相似性,预训练语言模型在SMU中得到了广泛应用。然而,预训练模型中的偏见问题,如性别、年龄和种族歧视,影响了下游任务的性能。为了解决这一问题,本文提出了一种基于对抗学习的无偏预训练方法和掩码微调技术,以提高模型的收敛速度和性能。实验结果表明,该方法在四个音乐理解任务中表现出色。
原理
Adversarial-MidiBERT模型的核心在于其基于BERT的双向编码器表示,通过对抗学习和掩码微调技术来减少训练数据中的偏见。模型通过一个对抗机制来避免掩码那些导致偏见的上下文无关令牌,同时在微调阶段引入随机[MASK]令牌来缩小预训练和微调之间的数据差距。这种设计有效地提高了模型的收敛速度和性能,使其在音乐理解任务中表现优异。
流程
模型的预训练过程包括随机转调以扩展训练数据,将MIDI文件转换为Octuple令牌序列作为模型输入。在每个epoch中,掩码器生成每个令牌的掩码概率,选择具有最高掩码概率的令牌进行掩码,并由恢复器恢复这些令牌。通过动态权重平衡不同属性的损失,恢复器的损失值用于生成掩码器的学习目标。在微调阶段,随机替换输入令牌以减少预训练和微调之间的差距。
应用
Adversarial-MidiBERT模型不仅在音乐理解任务中表现出色,还具有广泛的应用前景。未来,该模型可以应用于音乐生成任务和自然语言处理任务,进一步推动音乐信息检索和人工智能在音乐领域的应用。
