"创新能源管理:混合数据中心如何降低LLM推理工作负载的能耗"

Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads

摘要

本文由Grant Wilkins、Srinivasan Keshav和Richard Mortier合著,探讨了大型语言模型(LLMs)在数据中心中的能源消耗问题。随着LLMs的广泛应用,其高能耗已成为数据中心可持续性的关键挑战。论文提出了一种混合数据中心模型,通过成本基础的调度框架动态分配LLM任务于不同能效和计算能力的硬件加速器上,特别是根据输入和输出令牌的数量来决定任务处理在节能处理器还是高性能GPU上。研究结果显示,这种混合策略相比传统方法能减少7.5%的CPU+GPU能源消耗。

原理

论文的核心在于提出了一种基于成本的调度框架,该框架通过分析LLM任务的输入和输出令牌数量,动态决定任务应分配给哪种类型的处理器。具体来说,通过定义一个成本函数,该函数综合考虑了能源消耗和运行时间,以优化整体能效。成本函数中的参数可以根据实际操作需求调整,以平衡能源效率和响应速度。这种动态调度模型不仅提高了能源效率,还保持了计算性能,是数据中心管理的一大创新。

流程

论文中详细描述了如何使用Huggingface的Accelerate库来标准化不同平台的硬件优化,以及如何选择和评估三个开源LLM模型(Falcon、Llama-2和Mistral)。通过在不同硬件配置上进行基准测试,研究团队分析了这些模型在处理不同数量输入和输出令牌时的能源消耗和性能表现。例如,对于输入令牌的增加,所有系统都显示出运行时间的非线性增长,而在输出令牌增加时,运行时间和能源消耗也显著增加。

应用

该研究提出的混合数据中心模型和动态任务调度策略,不仅适用于当前的LLM应用,也为未来更广泛的人工智能服务提供了可持续的能源管理方案。随着AI技术的进一步发展和普及,这种能源效率优化策略将变得更加重要,有助于减少数据中心的整体碳足迹,推动绿色计算的发展。