探索大型语言模型性能预测的新框架：协同性能预测（CPP）

Posted on 2024-07-01 in CS.AI • 17 words • 1 minute read

Last updated on 2024-07-05

摘要

本文介绍了一种名为“协同性能预测”（Collaborative Performance Prediction, CPP）的新框架，旨在全面理解和准确预测大型语言模型（LLMs）在多样化下游任务中的表现。传统的缩放法则（scaling laws）主要依赖于模型家族内部的相似性进行性能预测，而忽略了不同模型家族之间的相似性。CPP框架通过利用多种模型的历史性能数据和其他设计因素，显著提高了预测的准确性。此外，CPP框架还能够进行因素重要性的详细分析，这是传统缩放法则所忽视的。本文的研究成果为LLMs的性能预测提供了新的视角和方法，具有重要的理论和实践意义。

原理

CPP框架的工作原理基于两个主要组成部分：协同数据和协同预测方法。协同数据包括一个分数矩阵，该矩阵展示了不同LLMs在下游任务中的性能，以及模型和任务的外部描述因素。协同预测方法通过利用这些协同数据，结合模型和任务的ID，实现准确的分数预测。具体来说，该框架学习LLMs和任务的潜在表示，这些表示捕捉了不同模型和任务之间的内在相似性。通过模型和任务潜在表示之间的交互（例如内积），可以预测LLMs在特定任务上的性能。

流程

CPP框架的工作流程如下：

收集LLMs在学术论文、技术报告和公开排行榜上的性能数据，构建一个包含72个模型和29个任务的分数矩阵。
利用矩阵分解（MF）和神经协同过滤（NCF）等方法，学习模型和任务的潜在表示。
通过模型和任务潜在表示的交互，预测LLMs在特定任务上的性能分数。
使用多种评估指标（如MSE损失、L1损失、准确率和MAE@2）来评估预测性能。例如，在HELM核心排行榜上，使用50%的分数来预测剩余50%的分数，预测排名（基于预测分数）的准确率达到10%，MAE@2达到39%。

应用

CPP框架的应用前景广泛，特别是在需要准确预测LLMs性能的场景中，如模型选择、任务分配和资源优化。此外，CPP框架还能够帮助研究人员和工程师更好地理解LLMs的性能特性，从而优化模型设计和训练过程。随着协同数据集的不断扩大，CPP框架的预测准确性有望进一步提高，为LLMs的研究和应用提供更强大的支持。