6G边缘智能：低延迟协作微调基础模型的资源管理创新

Posted on 2024-07-13 in CS.AI • 13 words • 1 minute read

Last updated on 2024-07-16

摘要

本文探讨了在网络边缘部署大规模基础模型（FoMo）进行低延迟协作微调的资源管理问题。随着人工智能（AI）技术的发展，特别是像ChatGPT这样的生成式AI对话模型，基础模型在移动网络中的应用越来越广泛。为了克服单个设备的内存和计算限制，本文提出了一种多设备协作的微调范式（DEFT），其中边缘设备协同优化基础模型中的不同部分，边缘服务器负责协调和梯度聚合。文章详细介绍了深度感知块分配问题，并提出了一种低复杂度的算法CRUNCH来解决最优块-设备匹配问题，以及联合带宽和块分配（JBBA）问题的解决方案。实验结果表明，通过这种低延迟的DEFT（LoLa-DEFT）框架，可以在GLUE基准上显著减少微调RoBERTa模型的延迟。

原理

本文提出的LoLa-DEFT框架通过多设备协作的方式，克服了单个设备在内存和计算能力上的限制。在DEFT范式中，边缘设备协同优化基础模型中的不同参数块，而边缘服务器负责协调和梯度聚合。关键的创新在于深度感知块分配算法CRUNCH，该算法利用块深度与计算延迟和内存成本之间的单调递增关系，有效地减少了搜索空间，从而降低了问题的复杂度。此外，联合带宽和块分配（JBBA）问题的解决方案通过引入设备参与度指标，将块分配和带宽分配解耦，进一步优化了资源分配。

流程

LoLa-DEFT的工作流程包括以下几个关键步骤：

初始化：初始化微调参数块。
服务器操作：获取设备的内存、信道状态信息（CSI）和计算系数，执行深度感知块分配和带宽分配。
设备操作：根据调度指令检查激活的设备，获取最新模型，执行梯度计算并优化本地数据集，上传计算的梯度。
服务器聚合：服务器接收所有参数块的梯度，进行模型聚合并更新模型。
输出：输出协作微调后的模型参数。

应用

LoLa-DEFT框架在6G网络中的应用前景广阔，特别是在需要快速适应用户特定任务和应用的场景中。通过在网络边缘部署基础模型并进行低延迟微调，可以显著提升用户体验，特别是在自然语言处理、图像识别等AI应用中。此外，该框架还可以应用于智能交通系统、智能家居和工业自动化等领域，推动边缘智能的发展。