MIRAI:评估 LLM 国际事件预测能力的新基准
摘要
本文介绍了一种名为 MIRAI 的新型基准,用于评估大型语言模型(LLM)在国际事件预测中的能力。该基准具有创新性,能够评估 LLM 作为时间预测器的能力,并提供了一种系统的方法来评估 LLM 在不同时间范围和预测任务上的性能。通过使用 MIRAI,研究人员可以更好地了解 LLM 在国际事件预测中的优势和局限性,并为未来的研究和应用提供指导。
原理
MIRAI 基准的工作原理是基于事件预测的过程,即收集关键历史数据并进行时间推理以预测未来事件的结果。具体来说,MIRAI 将事件表示为一个四元组(t,s,r,o),其中 t 是时间戳,s 和 o 分别是主体和客体国家,r 是关系类型。通过对大量历史事件数据的学习和分析,LLM 可以预测未来事件中主体和客体国家之间的关系类型。
流程
MIRAI 基准的工作流程包括以下步骤:
- 数据收集和预处理:收集和整理大量的国际事件数据,并进行清洗和预处理,以确保数据的质量和一致性。
 - 模型训练:使用预处理后的数据训练 LLM 模型,使其能够学习到事件之间的关系和模式。
 - 预测任务:定义各种预测任务,如短期、中期和长期的事件预测,以及不同关系类型的预测。
 - 模型评估:使用测试集对训练好的模型进行评估,计算各种指标来衡量模型的性能,如准确率、召回率和 F1 值等。
 - 结果分析:对评估结果进行分析,比较不同模型和方法的性能,找出最优的模型和方法,并分析其优势和局限性。
 
应用
MIRAI 基准的应用前景非常广泛,包括但不限于以下几个方面:
- 国际政治分析:帮助政治分析师更好地理解国际事件的发展趋势和影响,为政策制定提供参考。
 - 风险评估:预测国际事件的发生,为企业和政府提供风险预警和应对策略。
 - 投资决策:分析国际事件对金融市场的影响,为投资者提供决策支持。
 - 学术研究:为研究人员提供一个统一的评估框架,促进国际事件预测领域的研究和发展。
 
