探索大型语言模型性能预测的新框架:协同性能预测(CPP)
摘要
本文介绍了一种名为“协同性能预测”(Collaborative Performance Prediction, CPP)的新框架,旨在全面理解和准确预测大型语言模型(LLMs)在多样化下游任务中的表现。传统的缩放法则(scaling laws)主要依赖于模型家族内部的相似性进行性能预测,而忽略了不同模型家族之间的相似性。CPP框架通过利用多种模型的历史性能数据和其他设计因素,显著提高了预测的准确性。此外,CPP框架还能够进行因素重要性的详细分析,这是传统缩放法则所忽视的。本文的研究成果为LLMs的性能预测提供了新的视角和方法,具有重要的理论和实践意义。
原理
CPP框架的工作原理基于两个主要组成部分:协同数据和协同预测方法。协同数据包括一个分数矩阵,该矩阵展示了不同LLMs在下游任务中的性能,以及模型和任务的外部描述因素。协同预测方法通过利用这些协同数据,结合模型和任务的ID,实现准确的分数预测。具体来说,该框架学习LLMs和任务的潜在表示,这些表示捕捉了不同模型和任务之间的内在相似性。通过模型和任务潜在表示之间的交互(例如内积),可以预测LLMs在特定任务上的性能。
流程
CPP框架的工作流程如下:
- 收集LLMs在学术论文、技术报告和公开排行榜上的性能数据,构建一个包含72个模型和29个任务的分数矩阵。
 - 利用矩阵分解(MF)和神经协同过滤(NCF)等方法,学习模型和任务的潜在表示。
 - 通过模型和任务潜在表示的交互,预测LLMs在特定任务上的性能分数。
 - 使用多种评估指标(如MSE损失、L1损失、准确率和MAE@2)来评估预测性能。 例如,在HELM核心排行榜上,使用50%的分数来预测剩余50%的分数,预测排名(基于预测分数)的准确率达到10%,MAE@2达到39%。
 
应用
CPP框架的应用前景广泛,特别是在需要准确预测LLMs性能的场景中,如模型选择、任务分配和资源优化。此外,CPP框架还能够帮助研究人员和工程师更好地理解LLMs的性能特性,从而优化模型设计和训练过程。随着协同数据集的不断扩大,CPP框架的预测准确性有望进一步提高,为LLMs的研究和应用提供更强大的支持。
