探索无分词器的大型语言模型:T-FREE的突破与应用前景

T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

摘要

本文介绍了一种名为T-FREE的新型无分词器(Tokenizer-Free)生成式大型语言模型(LLMs),通过稀疏表示实现内存高效的嵌入。T-FREE通过直接嵌入单词的稀疏激活模式,利用字符三元组(character triplets),无需参考语料库,从而解决了传统分词器在计算开销、词汇利用效率和嵌入层大小方面的局限性。实验表明,T-FREE在下游性能上具有竞争力,且在跨语言迁移学习中表现显著提升。

原理

T-FREE的核心在于直接使用字符三元组的稀疏激活模式来嵌入单词,避免了传统分词器的复杂训练过程和词汇表的限制。通过定义一个鲁棒的哈希函数,将每个单词分解为字符三元组,并将这些三元组映射到稀疏的隐藏表示向量上。这种表示方式允许模型在嵌入层中利用单词间的形态相似性,从而实现嵌入层的强压缩。此外,T-FREE的训练目标从传统的单标签问题转变为基于单词相似性的多标签预测问题,进一步提高了模型的语义鲁棒性和参数利用效率。

流程

T-FREE的工作流程包括以下几个关键步骤:

  1. 单词分割:将文本严格按数字和非字母数字字符分割,确保每个分割包含完整的单词、数字或特殊字符。
  2. 编码:定义一个鲁棒的哈希函数,将每个单词分解为字符三元组,并将这些三元组映射到稀疏的隐藏表示向量上。
  3. 聚合:将所有三元组的嵌入条目相加,生成最终的单词嵌入。
  4. 训练目标与文本解码:将传统的单标签二元交叉熵损失函数改为多标签二元交叉熵损失函数,以适应多标签的激活模式。在解码时,通过预计算所有可能的下一个单词的激活模式,并使用稀疏矩阵乘法来预测下一个单词。

应用

T-FREE的应用前景广泛,特别是在需要高效内存使用和跨语言适应性的场景中。由于其无需分词器的特性,T-FREE可以简化模型训练流程,减少计算资源需求,并提高对低资源语言的处理能力。此外,T-FREE的稀疏表示方法也有助于在边缘设备上部署大型语言模型,推动其在多语言环境下的应用。