探索维基百科变化事件数据集CHEW:揭示大型语言模型的时间理解能力

CHEW: A Dataset of CHanging Events in Wikipedia

摘要

本文介绍了CHEW(CHanging Events in Wikipedia)数据集,这是一个专注于维基百科中事件和实体随时间变化的新型数据集。论文通过使用CHEW数据集来测试大型语言模型(LLMs)对维基百科实体和事件时间线的理解能力,特别是在生成和分类任务中的表现。研究结果表明,尽管LLMs拥有时间信息,但它们在构建准确的时间线上仍面临挑战。此外,论文还展示了CHEW衍生嵌入在识别意义变化方面的有效性。

原理

CHEW数据集的构建基于TAQA数据集(Zhao et al., 2024),该数据集包含带有时间问答对的维基百科文章。论文通过定义∆A(q, t1, t2) = A(q, t1) ̸= A(q, t2)来识别答案的变化,从而从TAQA数据集中提取出代表时间变化的维基百科页面对。这些页面对通过SBERT(Reimers and Gurevych, 2019)计算的余弦相似度进行筛选,确保所选页面对反映了DTAQA中的变化,并且相似度足够高,以确保在t1和t2之间没有其他重要变化发生。

流程

论文中的实验流程包括使用LLMs生成时间线知识,通过提交带有时间戳t1和t2的提示p给LLM,评估LLMs的响应LLM(i, wt1, t2)的准确性。评估方法是通过检索LLMs响应与wt2内容之间的最大SBERT文本相似度S来进行。此外,论文还探索了基于提示的二进制文本分类,通过提示LLMs对给定的文本对(w1, w2)进行分类,判断是否存在关键变化。

应用

CHEW数据集的应用前景广泛,特别是在持续学习、时间对齐以及其他涉及LLMs和它们处理时间信息能力的研究领域。论文通过实验展示了LLMs在时间对齐方面的潜力,特别是在下游任务如上下文中的单词时间分类任务中,LLMs的表现与基准模型相当,显示出其在处理时间相关信息方面的竞争力。