探索大型语言模型的精细指令遵循能力:DINGO数据集的先进性与应用前景

Diverse and Fine-Grained Instruction-Following Ability Exploration with Synthetic Data

摘要

本文介绍了一种名为DINGO的新型评估数据集,旨在对大型语言模型(LLMs)的指令遵循能力进行细致和多样化的评估。随着LLMs在处理复杂和多样化用户指令方面的应用日益广泛,现有的评估方法往往缺乏对任务级别的细致评估和多样化的指令表达。DINGO数据集通过构建一个包含130个节点的多层次类别树,并结合GPT-4和人类专家生成的多样化指令,为LLMs的指令遵循能力提供了更全面和挑战性的评估。此外,DINGO还为改进LLMs提供了细致的任务级别指导,有望推动LLMs在实际应用中的进一步发展。

原理

DINGO数据集的核心在于其多层次类别树和多样化的指令数据。首先,通过手动注释从ShareGPT平台提取的真实用户指令,构建了一个包含130个节点的四级类别树,涵盖了用户可能希望LLMs完成的实际任务。其次,为了确保评估的全面性,使用GPT-4模拟多种指令风格、态度和语言,生成多样化的指令数据。这种方法不仅避免了数据泄露,还确保了指令的高质量。通过这种方式,DINGO能够对LLMs的指令遵循能力进行细致和多样化的评估,从而揭示模型在不同任务和指令表达下的性能。

流程

DINGO的工作流程包括三个主要步骤:种子数据收集、类别树注释和指令数据收集。首先,从ShareGPT平台收集真实用户指令作为种子数据。然后,手动对这些数据进行分类,构建细粒度的类别树。最后,基于种子数据和类别树,指导GPT-4生成多样化的指令数据。例如,一个来自GSM8K的数学问题通过GPT-4被转化为角色扮演的指令形式,如“扮演一个耐心的数学老师,逐步解答这个问题:Ronnie得到了5,而Rissa得到了三倍…”。通过这些步骤,DINGO收集了5026个多样化的样本,用于全面评估LLMs的指令遵循能力。

应用

DINGO数据集的应用前景广泛,特别是在需要LLMs理解和执行多样化用户指令的场景中。例如,在教育、客户服务、编程辅助等领域,LLMs需要根据用户的具体需求提供定制化的响应。DINGO不仅能够帮助开发者和研究人员评估和改进LLMs的指令遵循能力,还能为实际应用中的用户体验提供优化方向。随着LLMs在更多领域的应用,DINGO将成为推动这些模型性能提升的重要工具。