探索FaceCaption-15M:引领面部图像-文本多模态学习的新前沿
摘要
本文介绍了一个名为FaceCaption-15M的大规模多模态面部图像-文本数据集,该数据集包含超过1500万对面部图像及其自然语言描述。该数据集的构建旨在促进面部相关任务的研究,如面部属性识别、文本-图像检索和基于草图的面部图像检索。通过综合分析图像质量、文本自然度、文本复杂度和文本-图像相关性,证明了FaceCaption-15M的优越性。此外,本文还训练了一个面部语言-图像预训练模型(FLIP),并在多个面部相关任务上取得了最先进的结果。该数据集和模型的代码和数据已公开,以促进进一步的研究和应用。
Read more...








