探索长上下文语言模型的性能极限:SWiM框架与Medoid Voting方法
摘要
本文由Amanda Dsouza等人撰写,针对大型语言模型(LLMs)在处理长上下文时的性能评估问题,提出了一种名为Snorkel Working Memory Test(SWiM)的评估框架。该框架旨在解决传统测试方法(如“needle in a haystack”测试)在实际应用中的局限性,特别是在处理真实世界文档时的不足。SWiM框架通过模拟真实任务,评估模型在长上下文中的表现,并提出了一种名为medoid voting的简单但有效的训练无需求方法,以缓解模型在上下文中间部分信息检索时的性能下降问题。实验结果显示,medoid voting在单文档问答任务中可提升高达24%的准确率。
Read more...








