"突破无限宽度模型的性能瓶颈:ADAM优化器的新应用"

Infinite Width Models That Work: Why Feature Learning Doesn"t Matter as Much as You Think

摘要

本文探讨了无限宽度模型(如神经正切核NTK)在性能上通常不如有限模型的问题,并挑战了传统观点,即这种性能差距是由于缺乏特征学习所致。文章通过实验和理论分析表明,即使在没有特征学习的情况下,NTK模型仍然表现不佳,主要原因是现有的无限宽度模型依赖于如随机梯度下降(SGD)这样的弱优化器。文章提出了一种基于类似ADAM优化器动态的无限宽度模型构造方法,并通过实验验证了这种方法能够有效缩小性能差距。

原理

文章的核心在于重新定义了无限宽度模型的训练动态,特别是通过引入类似ADAM的优化器来改进传统的NTK模型。传统的NTK模型在无限宽度限制下,其特征向量在训练过程中是冻结的,这限制了模型的学习能力。文章通过证明在无限宽度模型中,通过调整子特征向量的权重,最终层可以访问所有可能的行为,从而消除了这种冻结的影响。此外,文章提出的ADAM*优化器版本,通过在无限宽度限制下保持ADAM的动量和自适应学习率特性,进一步提升了模型的性能。

流程

文章首先定义了一个通用的深度学习模型框架,其中特征数量H被推向无限大。然后,通过将模型表示为一个期望值,文章展示了有限模型和无限模型之间的关系。接着,文章介绍了神经正切核(NTK)的概念,并展示了如何在训练过程中使用NTK来表示模型的输出。最后,文章提出了使用ADAM*优化器的无限宽度模型构造方法,并通过实验验证了这种方法的有效性。

应用

文章提出的无限宽度模型及其优化方法为深度学习领域提供了新的视角和工具,特别是在处理大规模数据集和复杂模型时。这种方法不仅能够提升现有模型的性能,还可能启发新的模型设计和优化策略,特别是在需要高度自适应和高效能优化的应用场景中,如自然语言处理、图像识别等。