探索人类与LLM对话:心理模型与毒性起源的先进研究
摘要
本文探讨了人类与大型语言模型(LLMs)在真实世界中的交互,特别是在不受限制的环境下,与以往专注于特定任务的伦理修剪模型(如ChatGPT)的研究形成对比。研究旨在理解毒性内容的起源,发现尽管LLMs被合理地指责提供有毒内容,但这些内容大多是由人类主动寻求或至少引发的。通过手动分析数百个被API商业供应商判定为有毒的对话,研究还对当前拒绝回答某些用户请求的做法提出了质疑。此外,基于多个实证指标,推测人类在交互过程中其心理模型发生了变化,从与机器交互的心态转向与人类交互的心态。
原理
研究通过分析超过20万个真实世界的对话数据集,使用计算语言学中的既定方法和库,聚焦于对话线索如礼貌和语言复杂性,来探讨人类与LLMs交互时的心理模型。此外,利用OpenAI的 moderation API提供的毒性测量,结合手动分析和高度有毒对话的分类,来回答毒性内容如何产生的问题。研究发现,毒性主要由人类触发,并且用户的心理模型可能从机器转向人类。
流程
研究首先从LMSYS-Chat-1M数据集中筛选出英语对话,并通过去除自动生成的提示和分类对话来预处理数据。随后,进行定量和定性分析,使用文本分析方法如基于词典的分析来评估对话中的礼貌和语言复杂性。通过Mann-Whitney U检验等统计方法,分析对话中指标的变化,并手动分析500个高毒性对话,以理解毒性是如何在对话中产生的。
应用
该研究对于理解AI交互中的毒性问题具有重要意义,有助于改进AI模型的设计和监管策略。此外,研究揭示的人类心理模型的变化,对于开发更符合人类期望的AI交互系统具有指导意义。未来,这些发现可以应用于AI伦理、用户界面设计以及AI辅助决策等多个领域。
