探索工具增强型LLMs的幻觉问题:ToolBH基准的全面诊断与应用前景

ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

摘要

本文介绍了一种名为ToolBH的综合诊断基准,用于评估工具增强型大型语言模型(LLMs)中的幻觉问题。由于缺乏相关基准,社区对这些模型中的幻觉问题理解不足。ToolBH基准通过深度和广度两个角度评估LLMs的幻觉现象。在深度方面,提出多层次诊断过程,包括可解性检测、解决方案规划和缺失工具分析。在广度方面,考虑三种基于工具集特征的场景:缺失必要工具、潜在工具和功能受限工具。此外,通过多轮人工注释收集了700个评估样本,结果显示ToolBH基准对现有先进模型如Gemini-1.5-Pro和GPT-4o提出了显著挑战。本文的诊断分析指出,模型错误的主要原因是评估任务可解性。此外,开放权重模型在冗长回复中性能下降,而专有模型在较长推理中表现更佳。

原理

ToolBH基准通过两个主要维度评估工具增强型LLMs的幻觉问题:深度和广度。在深度评估中,采用多层次诊断框架,包括三个阶段:首先,模型需要判断任务是否可解(可解性检测);其次,模型必须规划解决任务所需的工具序列(解决方案规划);最后,对于无法解决的子目标,模型需分析缺失工具的功能(缺失工具分析)。在广度评估中,考虑三种工具集特征的场景:缺失必要工具、潜在工具和功能受限工具。通过这些多层次和多场景的评估,ToolBH能够全面诊断LLMs在工具使用中的幻觉问题,特别是在处理不可解任务时的表现。

流程

ToolBH基准的工作流程包括数据收集、模型评估和结果分析。首先,通过多轮人工注释收集700个评估样本,每个样本包括用户查询、工具集和解决方案。然后,使用这些样本来评估14个LLMs,包括7个专有模型和7个开放权重模型。评估过程涉及三个层次的诊断任务:可解性检测、解决方案规划和缺失工具分析。每个层次都有特定的评估指标,如精确匹配(EM)、进度率(PR)和匹配分数(MS)。最后,通过分析模型的表现,揭示了模型在不同层次和场景中的幻觉问题,特别是在处理不可解任务时的错误模式。

应用

ToolBH基准的应用前景广泛,特别是在需要高度可靠性和准确性的领域,如医疗、法律和技术支持。通过提供一个全面的幻觉诊断框架,ToolBH有助于开发更可靠的工具增强型LLMs,这些模型能够更好地理解和处理复杂的用户查询。此外,ToolBH的评估结果和分析为模型改进提供了宝贵的见解,有助于推动LLMs在实际应用中的进一步发展。