探索复杂指令遵循:ComplexBench基准测试及其在LLMs中的应用
摘要
本文介绍了一种名为ComplexBench的基准测试,用于评估大型语言模型(LLMs)在遵循包含多重约束的复杂指令方面的能力。传统的基准测试主要关注单一约束的指令,而忽略了约束组合在复杂指令中的重要性。ComplexBench通过提出一个包含四种约束类型、十九个约束维度和四种组合类型的分层分类法,以及一个高质量的人工收集数据集,来全面评估LLMs的能力。此外,本文还提出了一种基于规则增强的LLM评估方法,通过依赖结构确定不同组合类型的最终评估分数,以提高评估的可靠性。实验结果显示,现有的LLMs在处理包含多重约束组合的复杂指令时存在显著缺陷,这强调了ComplexBench在提升LLMs复杂指令遵循能力方面的重要性。
Read more...








