探索LiveBench:一个无污染、自动评分的大型语言模型基准

LiveBench: A Challenging, Contamination-Free LLM Benchmark

摘要

LiveBench是一篇关于大型语言模型(LLM)评估的论文,旨在解决传统机器学习基准框架在评估新模型时的不足,特别是测试集污染问题。论文提出了一个新的LLM基准——LiveBench,该基准具有三个主要特点:包含基于最新信息源的经常更新的问题、根据客观真实值自动评分、涵盖数学、编码、推理、语言、指令遵循和数据分析等多种挑战性任务。LiveBench通过使用最近发布的数学竞赛、arXiv论文、新闻文章和数据集中的问题,以及先前基准的更难、无污染版本,来评估众多知名闭源和开源模型。论文还强调了社区参与和合作的重要性,以不断扩展基准任务和模型。

原理

LiveBench的工作原理基于三个核心设计原则:1) 包含基于最新信息源的经常更新的问题,确保模型评估的时效性和相关性;2) 根据客观真实值自动评分,避免使用LLM或人工评判引入的偏见和错误;3) 涵盖多种挑战性任务,确保评估的全面性和深度。LiveBench通过自动更新问题和任务,以及发布更难的任务版本,来持续区分和评估LLM的能力提升。

流程

LiveBench的工作流程包括以下几个步骤:

  1. 问题和任务更新:定期从最新的信息源(如数学竞赛、arXiv论文、新闻文章和数据集)中提取和更新问题。
  2. 自动评分:使用客观真实值对模型答案进行自动评分,确保评分的准确性和一致性。
  3. 模型评估:评估包括闭源和开源模型在内的多种模型,涵盖从0.5B到110B的不同规模。
  4. 结果发布:发布所有问题、代码和模型答案,以及定期更新的任务和更难的任务版本。
  5. 社区合作:鼓励社区参与和合作,以扩展基准任务和模型,确保基准的持续发展和改进。

应用

LiveBench的应用前景广泛,主要体现在以下几个方面:

  1. 模型评估:为研究人员和开发者提供一个公正、全面的LLM评估平台,帮助他们了解和改进模型的性能。
  2. 技术进步:通过持续更新和发布更难的任务,推动LLM技术的进步和发展。
  3. 社区参与:通过社区合作,不断扩展和丰富基准任务,促进LLM领域的开放性和协作性。
  4. 行业应用:为行业提供一个可靠的评估工具,帮助他们在实际应用中选择和部署最合适的LLM模型。