探索ANOLE:开创性的自回归多模态模型,引领图像-文本生成新纪元

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

摘要

本文介绍了一种名为ANOLE的开放、自回归、原生大型多模态模型,用于交错图像-文本生成。ANOLE旨在解决现有开源大型多模态模型(LMMs)的局限性,如缺乏原生集成、仅支持单模态生成以及依赖单独的扩散模型进行视觉建模和生成。通过采用创新的微调策略,ANOLE展示了高质量、连贯的多模态生成能力,并已开源其模型、训练框架和指令调整数据。

原理

ANOLE基于Meta AI的Chameleon构建,采用了一种早期融合、基于令牌的自回归方法来建模多模态序列(文本和图像),无需使用扩散模型,仅依赖于Transformer。该模型通过特定的令牌化器将每个模态的样本令牌化,然后将这些令牌序列连接成一个单一的多模态令牌序列,输入到自回归Transformer中进行建模。这种基于令牌的方法在输入令牌级别实现模态融合,显著降低了模型复杂性,提高了推理效率和生成交错图像-文本序列的能力。

流程

ANOLE的工作流程包括以下步骤:首先,使用模态特定的令牌化器对每个模态的样本进行令牌化;然后,将这些令牌序列连接成一个单一的多模态令牌序列;最后,将这个序列输入到自回归Transformer中进行建模和生成。例如,在生成如何烹饪鸡蛋的交错图像-文本序列时,ANOLE能够快速生成高质量、连贯的图像和文本内容。

应用

ANOLE的多模态生成能力使其在多个领域具有广泛的应用前景,包括教育(如教科书和漫画生成)、娱乐(如虚拟现实内容创作)和设计(如交互式用户界面设计)。随着模型的进一步优化和扩展,ANOLE有望在更多需要多模态生成能力的下游任务中发挥重要作用。