探索大型语言模型的虚拟角色条件化:Anthology方法的先进性与应用
摘要
本文介绍了一种名为“Anthology”的方法,用于通过利用开放式的生命叙事(称为“backstories”)来条件化大型语言模型(LLMs)以创建特定的虚拟角色。该方法通过增强实验结果的一致性和可靠性,同时确保多样性子群体的更好代表性,展示了其在匹配人类受访者响应分布方面的显著改进。通过在全国代表性的人类调查中进行的三个实验,Anthology方法在匹配人类响应分布方面实现了高达18%的改进,在一致性指标上实现了27%的改进。该方法的代码和生成的backstories已在GitHub上公开,以便未来研究和应用。
原理
Anthology方法的核心在于使用LLMs生成自然主义的backstories,这些backstories作为模型提示的前缀,以强烈条件化后续文本完成。Backstories是第一人称叙事,涵盖了个体生活的各个方面,从成长地点和经历到教育、职业和个人关系,再到价值观和信仰。这些故事本质上是开放式的和个人化的,触及作者的多种人口统计和个性特征。通过将这些backstories作为前缀提供给LLMs,模型能够生成反映特定虚拟角色的一致性和真实性的文本。
流程
Anthology方法的工作流程包括四个阶段:首先,利用语言模型生成一系列backstories,这些backstories使用不受限制的提示。接下来,对每个backstory条件化的角色进行人口统计调查,以估计角色的人口统计特征。然后,根据目标人口统计分布,有方法地选择一组代表性的虚拟角色,并基于这些角色进行调查。最后,通过这种方法,可以近似模拟人类调查结果。例如,一个生成的backstory可能描述一个人在加利福尼亚中央海岸长大,父母在他三岁时离婚,十五年来未与父亲交谈。这样的背景信息为模型提供了丰富的上下文,以生成符合该角色特征的响应。
应用
Anthology方法的应用前景广泛,特别是在行为研究领域,如心理学、经济学和社会科学。通过模拟人类参与者的响应,该方法可以用于快速且经济地进行大规模的初步研究,帮助调查设计者满足最佳实践,同时避免对真实人类受访者造成潜在伤害。此外,该方法还可以用于测试和验证假设,以及在正式的人类研究之前进行预实验。
