6G边缘智能:低延迟协作微调基础模型的资源管理创新
摘要
本文探讨了在网络边缘部署大规模基础模型(FoMo)进行低延迟协作微调的资源管理问题。随着人工智能(AI)技术的发展,特别是像ChatGPT这样的生成式AI对话模型,基础模型在移动网络中的应用越来越广泛。为了克服单个设备的内存和计算限制,本文提出了一种多设备协作的微调范式(DEFT),其中边缘设备协同优化基础模型中的不同部分,边缘服务器负责协调和梯度聚合。文章详细介绍了深度感知块分配问题,并提出了一种低复杂度的算法CRUNCH来解决最优块-设备匹配问题,以及联合带宽和块分配(JBBA)问题的解决方案。实验结果表明,通过这种低延迟的DEFT(LoLa-DEFT)框架,可以在GLUE基准上显著减少微调RoBERTa模型的延迟。
原理
本文提出的LoLa-DEFT框架通过多设备协作的方式,克服了单个设备在内存和计算能力上的限制。在DEFT范式中,边缘设备协同优化基础模型中的不同参数块,而边缘服务器负责协调和梯度聚合。关键的创新在于深度感知块分配算法CRUNCH,该算法利用块深度与计算延迟和内存成本之间的单调递增关系,有效地减少了搜索空间,从而降低了问题的复杂度。此外,联合带宽和块分配(JBBA)问题的解决方案通过引入设备参与度指标,将块分配和带宽分配解耦,进一步优化了资源分配。
流程
LoLa-DEFT的工作流程包括以下几个关键步骤:
- 初始化:初始化微调参数块。
 - 服务器操作:获取设备的内存、信道状态信息(CSI)和计算系数,执行深度感知块分配和带宽分配。
 - 设备操作:根据调度指令检查激活的设备,获取最新模型,执行梯度计算并优化本地数据集,上传计算的梯度。
 - 服务器聚合:服务器接收所有参数块的梯度,进行模型聚合并更新模型。
 - 输出:输出协作微调后的模型参数。
 
应用
LoLa-DEFT框架在6G网络中的应用前景广阔,特别是在需要快速适应用户特定任务和应用的场景中。通过在网络边缘部署基础模型并进行低延迟微调,可以显著提升用户体验,特别是在自然语言处理、图像识别等AI应用中。此外,该框架还可以应用于智能交通系统、智能家居和工业自动化等领域,推动边缘智能的发展。
