探索高效双曲Transformer:完全在双曲空间中的创新模型
摘要
本文介绍了一种名为Hypformer的高效双曲Transformer模型,该模型完全在双曲空间中运行,特别适用于处理具有树状和层次结构的数据。Hypformer通过引入两个基础模块——双曲变换(HTC)和双曲调整与细化(HRC),定义了Transformer在双曲空间中的基本模块。此外,Hypformer开发了一种线性自注意力机制,使其能够首次处理十亿级规模的图数据和长序列输入。实验结果证实了Hypformer在各种数据集上的有效性和效率,展示了其作为大规模数据表示和大模型有效且可扩展解决方案的潜力。
原理
Hypformer的核心创新在于其在双曲空间中完全定义了Transformer的关键组件,包括线性变换层、LayerNorm层、激活函数和dropout操作等。通过使用洛伦兹模型来构建双曲几何,Hypformer引入了HTC和HRC两个基础模块,这些模块在双曲空间中直接工作,无需频繁映射到切线空间。HTC定义了双曲空间中的线性变换,而HRC则进一步定义了Transformer中常用的基本操作,如LayerNorm、激活函数、dropout和拼接操作。此外,Hypformer还引入了一种具有线性时间复杂度的双曲自注意力机制,使其能够高效处理大规模数据。
流程
Hypformer的工作流程包括数据准备、双曲线性变换(HTC)、双曲线性注意力块、前馈层(由HTC构建)和LayerNorm层(由HRC构建)。输入数据首先通过指数映射到洛伦兹模型中,然后通过HTC层进行变换。在编码器部分,变换后的数据通过双曲线性注意力块处理,该块包含双曲位置编码。随后,数据通过由HTC实现的前馈层和由HRC构建的LayerNorm层。对于基于图的输入,Hypformer结合了图神经网络,并采用并行范式来形成图Transformer模型。处理后的数据随后被传递到解码器,解码器可以是编码器的类似结构,也可以是双曲多项逻辑回归(HypMLR)或特定设计的解码器。
应用
Hypformer的设计使其特别适合处理具有复杂层次结构的数据,如社交网络、生物信息学网络和自然语言处理中的语义层次。其高效的双曲自注意力机制和线性时间复杂度使其能够处理大规模数据集,预示着在数据挖掘、机器学习和人工智能领域的广泛应用前景。随着对双曲几何和深度学习结合研究的深入,Hypformer有望在多个领域推动技术进步。
