探索复杂指令遵循:ComplexBench基准测试及其在LLMs中的应用

Benchmarking Complex Instruction-Following with Multiple Constraints Composition

摘要

本文介绍了一种名为ComplexBench的基准测试,用于评估大型语言模型(LLMs)在遵循包含多重约束的复杂指令方面的能力。传统的基准测试主要关注单一约束的指令,而忽略了约束组合在复杂指令中的重要性。ComplexBench通过提出一个包含四种约束类型、十九个约束维度和四种组合类型的分层分类法,以及一个高质量的人工收集数据集,来全面评估LLMs的能力。此外,本文还提出了一种基于规则增强的LLM评估方法,通过依赖结构确定不同组合类型的最终评估分数,以提高评估的可靠性。实验结果显示,现有的LLMs在处理包含多重约束组合的复杂指令时存在显著缺陷,这强调了ComplexBench在提升LLMs复杂指令遵循能力方面的重要性。

原理

ComplexBench的工作原理基于一个分层的分类法,该分类法定义了复杂指令中的约束和组合类型。约束类型包括词汇、格式、语义和实用四种,每种类型下又细分为多个维度。组合类型则包括单一、与、链和选择四种,这些组合类型能够表示约束之间的典型结构组合。为了评估LLMs生成的文本是否满足这些约束和组合类型,本文设计了一种基于是/否问题的验证方法,并通过规则增强的LLM评估方法来解决每个问题。最终,通过依赖结构来聚合每个问题的答案,从而得到最终的评估分数。这种方法不仅考虑了约束的独立性,还考虑了组合类型带来的依赖关系,从而更准确地评估LLMs在复杂指令遵循方面的能力。

流程

ComplexBench的工作流程包括数据收集、任务分配、数据标注和验证以及选择分支扩展四个步骤。首先,通过收集现实应用场景中的参考指令和开源指令遵循基准来构建复杂指令。然后,将整个数据集构建任务分配给标注者,要求他们根据任务要求修改参考指令。在数据标注和验证阶段,标注者需要构建新的复杂指令并标注约束维度和组合类型。最后,为了解决选择分支评估中的潜在偏差,手动修改选择条件以构建覆盖所有分支的多个指令。评估过程中,使用规则增强的LLM评估方法来验证每个约束和组合类型,并通过依赖结构来聚合最终分数。

应用

ComplexBench的应用前景广泛,特别是在需要LLMs处理复杂指令的实际场景中。例如,在客户服务、教育辅导和专业咨询等领域,LLMs需要能够理解和执行包含多重约束的复杂指令。通过使用ComplexBench进行评估和改进,可以显著提高LLMs在这些领域的应用效果和用户满意度。此外,ComplexBench还可以作为研究和开发新型LLMs的重要工具,帮助研究人员识别和解决在复杂指令遵循方面的挑战,从而推动整个领域的发展。