探索大型语言模型在公众意见估计中的应用与局限:以德国选举为例
摘要
本文探讨了大型语言模型(LLMs)在估计德国公众意见方面的应用,特别是通过模拟选民投票行为。研究通过生成与2017年德国纵向选举研究(GLES)受访者个体特征相匹配的合成样本,使用GPT-3.5预测每位受访者的投票选择,并与基于调查的估计进行比较。研究发现,GPT-3.5在预测公民投票选择方面并不准确,倾向于偏向绿党和左翼党。尽管LLM捕捉到了“典型”选民子群体的趋势,如党派人士,但它未能捕捉到影响个体选民选择的复杂因素。研究通过在一个新的背景下检验LLM对投票行为的预测,为LLM在研究公众意见的条件方面的研究做出了贡献。研究结果指出了LLM在公众意见估计中的差异,并强调了应用LLM进行公众意见估计的局限性。
原理
大型语言模型(LLMs)如GPT-3.5通过分析大量互联网文本数据进行训练,这些数据可能反映了人口中的态度和行为。当接收到一个请求时,LLM会根据其训练数据和请求中的特定上下文信息生成一个基于条件概率的文本输出。在本研究中,LLM被用来生成合成样本,这些样本是通过依次向LLM提供个体的社会人口统计、社会经济和/或态度信息,并要求其以该个体的视角回答调查问题来创建的。通过这种方式,LLM的输出可以作为对人口的估计。然而,由于LLMs不实时学习新数据,它们无法考虑可能影响公众意见的当前事件的新信息。
流程
研究首先创建了与GLES受访者个体特征相匹配的合成样本,然后使用GPT-3.5预测每位受访者的投票选择。预测结果与GLES数据中的实际投票行为进行比较,以评估LLM在不同人口子群体中的表现。具体步骤包括:
- 生成合成样本:基于GLES数据,创建与受访者特征相匹配的合成样本。
 - 预测投票行为:使用GPT-3.5对每个合成样本进行投票选择的预测。
 - 比较分析:将LLM的预测结果与GLES数据中的实际投票行为进行比较,分析LLM在不同子群体中的预测准确性。
 - 结果评估:通过计算精确度、召回率和F1分数来评估LLM的预测性能。
 
应用
本研究的应用前景在于LLMs在社会科学研究中的潜在用途,尤其是在调查数据收集和分析方面的辅助作用。LLMs可能特别适用于快速且低成本地收集数据,并覆盖难以通过传统调查接触到的人口段。然而,研究结果也指出了LLM在公众意见估计中的局限性,特别是在处理复杂的社会结构和多党制系统时。因此,未来的研究需要在不同的国家和语言背景下进一步探索LLMs的应用,并考虑如何优化LLM以更好地服务于调查研究。
