"神经编译库:解锁大型语言模型的算法潜能"
摘要
本文探讨了如何通过神经编译库增强大型语言模型(LLMs)的算法能力。传统LLMs在推理和规划等任务上表现不佳,主要因为神经网络优化算法的限制和架构表达能力的不足。本文提出了一种新方法,通过向LLMs添加基本操作和复杂可微分程序的库,使得常见算法无需从头学习。具体实现上,文章在LLaMA3架构基础上增加了内存、寄存器、基本操作和自适应循环,并定义了一种直接将算法编译成可微分起始库的方法,以便原生使用并传播梯度进行优化。初步研究表明,这种方法在简单算法任务上具有可行性,特别是在小规模变换器上进行微调时。
Read more...








