Metron:革新LLM推理系统性能评估的全面框架

Metron: Holistic Performance Evaluation Framework for LLM Inference Systems

摘要

本文介绍了一种名为Metron的全面性能评估框架,用于评估大型语言模型(LLM)推理系统的用户面向性能。当前的评估指标如TTFT、TBT、归一化延迟和TPOT未能充分捕捉LLM推理的复杂性,导致对实时应用如聊天和翻译的用户体验评估不全面。Metron框架引入了新颖的流动性指数(fluidity-index)和流动性令牌生成率(fluid token generation rate),旨在更精确地反映LLM推理过程中的实时用户体验。此外,Metron还对现有的开源和专有LLM推理系统进行了广泛的性能评估,揭示了它们的优缺点。

原理

Metron的核心在于其创新的流动性指数和流动性令牌生成率。流动性指数通过设定令牌级别的截止时间并测量在请求中满足的截止时间比例来反映LLM推理过程的复杂性。流动性令牌生成率则确定在保持特定流动性水平(如流动性指数>0.9)下可维持的最大可持续播放率。这两种指标共同提供了对LLM推理性能的全面视图,更紧密地符合现实世界的用户体验。

流程

Metron的工作流程包括两个主要评估方案:黑盒评估和容量评估。在黑盒评估中,Metron通过向服务器发送一系列具有多样化提示长度的请求,并跟踪每个输出令牌生成的时间戳,从而计算多种指标如TTFT、TBT和TPOT。在容量评估中,Metron评估系统在不同请求负载下的性能,以确定每个副本在满足流动性指数SLO要求时能提供的最大容量。

应用

Metron框架的应用前景广泛,适用于评估和优化各种LLM推理系统,无论是开源还是专有服务。通过提供更精确的用户体验评估,Metron有助于选择最有效和成本效益最高的LLM服务,从而推动实时交互应用的发展。