探索Transformer中的线性注意力:上下文学习的优化与泛化
摘要
本文探讨了上下文学习(In-Context Learning, ICL)在Transformer模型中的线性注意力机制的细粒度分析。文章通过研究数据分布、架构选择以及低秩参数化等方面,深入探讨了ICL的优化和泛化景观。研究发现,在适当的关联设计假设下,单层线性注意力和状态空间模型(H3)都能实现一步预条件梯度下降。此外,通过研究关联设计,文章提供了检索增强生成(RAG)和任务-特征对齐的新风险边界,揭示了ICL样本复杂度如何从分布对齐中受益。文章还推导了低秩参数化注意力权重的最优风险,并探讨了LoRA如何通过捕捉任务协方差之间的偏移来适应新分布。实验结果验证了理论发现,总体上,这项工作在实际有意义的设置中探索了ICL的优化和风险景观,并对其机制有了更深入的理解。
Read more...








