"探索未来交互:LLMs在Wizard of Oz实验中的创新应用与评估"
摘要
本文探讨了在Wizard of Oz (WoZ)实验中使用大型语言模型(LLMs)作为“巫师”的可行性和方法论。传统的WoZ方法涉及人类巫师模拟尚未实现的技术与参与者互动,以收集用户行为和设计空间的数据。随着LLMs在角色扮演能力的增强,本文提出了一种新的实验生命周期,允许研究人员安全地将LLMs集成到WoZ实验中,并通过两个案例研究展示了这一过程。此外,本文还贡献了一个基于启发式的评估框架,用于评估LLMs在WoZ实验中的角色扮演能力,揭示其行为模式和潜在的失败模式。
原理
本文提出的实验生命周期分为两个阶段:第一阶段使用LLMs代替传统WoZ中的人类巫师,与同样是LLMs模拟的参与者进行对话,生成合成数据,以快速评估LLMs的行为和潜在风险;第二阶段则将LLMs巫师与真实人类参与者进行对话,进一步验证和调整LLMs的表现。通过这两个阶段的迭代,研究人员可以确保LLMs在WoZ实验中的应用既安全又有效。评估框架则通过一系列自动化的文本分析指标(如毒性评分、情感分析、文本相似度、可读性和主题建模)来量化LLMs生成的对话质量,从而指导实验的进行和LLMs的优化。
流程
阶段一:LLMs对LLMs的模拟对话:
- 使用GPT-4作为巫师(WoLs)和模拟参与者(Simulacrums)。
 - 通过系统提示指导WoLs和Simulacrums的行为。
 - 收集大量对话数据,使用启发式评估框架进行分析。
 - 识别并修复WoLs的潜在问题,如毒性内容、重复性和可读性问题。
 
阶段二:LLMs对真实参与者的对话:
- 在修复后的WoLs与真实人类参与者之间进行对话。
 - 收集并分析对话数据,评估WoLs的表现。
 - 根据反馈进一步调整WoLs的行为。
 
比较分析:
- 对比两个阶段的对话数据,评估LLMs在模拟和真实对话中的表现差异。
 - 确定LLMs在WoZ实验中的应用前景和潜在限制。
 
应用
本文提出的方法不仅适用于电动汽车推广等特定场景的对话机器人开发,还具有广泛的潜在应用范围,包括但不限于其他社会公益话题的倡导、教育辅导、心理支持等多个领域。通过这种基于LLMs的WoZ实验方法,可以大幅降低传统WoZ实验的成本和复杂性,同时提高实验的可扩展性和重复性,为未来的人机交互研究和应用开发提供了新的可能性。
