探索DISCOVERYBENCH:大型语言模型在数据驱动发现中的前沿应用

DiscoveryBench: Towards Data-Driven Discovery with Large Language Models

摘要

DISCOVERYBENCH 是一个全新的综合基准测试,旨在评估大型语言模型(LLMs)在从提供的多个数据集中自动搜索和验证假设的能力。该基准测试包含264个任务,涵盖社会学和工程学等六个不同领域,通过手动从已发表的论文中提取发现工作流程,模拟研究人员在现实世界中面临的挑战。此外,还提供了903个合成任务,用于在任务复杂性方面进行受控评估。DISCOVERYBENCH 的结构化形式主义支持基于方面的评估,提供有关不同失败模式的有用见解。通过对几种流行的基于LLM的推理框架进行评估,发现即使是最佳系统得分也仅为25%,这表明在自主数据驱动发现方面存在挑战,并作为社区进步的有价值资源。

原理

DISCOVERYBENCH 通过正式化数据驱动的假设和复杂假设的结构,将其视为假设语义树,来评估LLMs的能力。数据驱动的假设是一个关于世界状态的声明性句子,其真实值可以通过使用验证过程VD从给定数据集D推断出来。每个假设可以进一步使用逻辑连接词(如析取和合取)表示为一组子假设hi∈H的命题公式ϕ,使得h := ϕ(h1, …, hn)和VD(h) = ϕ(VD(h1), …, VD(hn))。例如,假设h是“对于20岁以下的男性,产品A的受欢迎程度与他们的年龄成正比(h1),而对于40岁以上的男性,存在反比关系(h2)”,则h可以表示为合取h1 ∧ h2。此外,引入了一个结构化形式主义,将假设分解为三个假设维度:上下文(c)、变量(v)和关系(r)。通过这种形式主义,可以等价地定义假设h := ψ(c, v, r),其中ψ(·, ·, ·)返回声明性句子“在上下文c下,变量v具有关系r”。

流程

DISCOVERYBENCH 的工作流程包括过滤特定栖息地类型、使用GLM模型进行二元数据建模、检查数据点之间的空间自相关性以及使用统计诊断工具评估模型等步骤。例如,一个具体的任务目标是“城市土地使用如何影响加泰罗尼亚不同类型引入植物的入侵?”,工作流程可能包括以下步骤:1. 过滤城市栖息地类型;2. 使用带有对数函数的二项结果的GLM模型;3. 使用PySAL检查数据点之间的空间自相关性;4. 使用statsmodels.stats.diagnostic评估模型。最终答案可能是“城市土地使用增加了加泰罗尼亚农业森林植物对园艺引入植物的入侵”。

应用

DISCOVERYBENCH 的应用前景广泛,特别是在自动化科学发现过程中。它不仅可以帮助评估和改进当前的LLM模型,还可以推动自主数据驱动发现的研究。通过提供一个全面的基准测试,DISCOVERYBENCH 为社区提供了一个有价值的资源,以促进可靠和可重复的自主科学发现的进展。