探索RLHF模型中的世界模型与代理模型权衡:预测与行动的交织挑战
摘要
本文探讨了RLHF(Reinforcement Learning from Human Feedback)对齐的语言模型(LMs)在执行基础任务——下一个令牌预测时面临的挑战。尽管这些模型在基准测试和长文本生成方面表现出色,但它们在预测任意文档中的下一个令牌时遇到了困难。文章提出,这种性能下降可能是由于RLHF模型在生成连贯长文本时通过隐式蓝图限制了随机性,从而集中概率于特定锚点跨度,限制了模型生成不包含这些跨度的文档的能力。文章进一步分析了这种权衡在当前最有效的代理模型中的表现,并探讨了即使在改进对齐技术的情况下,为何这种权衡可能仍然是预测模型和行动模型之间的基本权衡。
原理
RLHF模型通过调整基础LM(世界模型)来训练模型执行特定目标和在短文本及长文本任务中表现出色。这些模型通过适应基础LM,这些基础LM被训练来准确预测任意前缀后可能出现的文本分布。然而,文章发现RLHF模型部分失去了基础LM模拟互联网广泛分布文档的能力。文章提出,这种权衡是由于RLHF模型集中概率于特定跨度,这允许模型蓝图化长文本生成,但降低了其建模任意文本的能力。具体来说,RLHF模型在下一个令牌预测方面遇到困难,即使在微调以恢复这些技能时也是如此。
流程
文章通过实验展示了RLHF模型在生成相同提示的多个样本时,会高度相似,而基础LM则不会。例如,对于“Python和JavaScript编程语言的主要区别是什么?”这一提示,RLHF模型生成的文本在多个独立生成的延续中大量重用n-gram,而基础模型则没有这种结构。文章使用核采样(nucleus sampling)来生成文本,并展示了即使在n-gram多样性相似的情况下,RLHF模型也会在不同生成中更多地重用长n-gram。此外,文章使用序列对齐方法MAFFT来对齐100个延续,发现RLHF模型在所有位置的重复性更高,尤其是在序列的开始和结束部分。
应用
文章认为,这种世界模型和代理模型之间的权衡可能是基本的,即使新的代理适应方法缓解了这些问题。文章提出,在固定容量下,由于其最优行为的根本差异,世界模型和代理模型之间必须存在某种权衡。这种权衡表明,适应模型以执行有用任务的方法,如RLHF,往往会缩小模型的广度。换句话说,一个采取行动朝向长期目标的代理模型可能不完全代表所有可能的代理和目标的广泛分布。未来的工作可能会探索结合代理模型和世界模型的系统,以便更可靠地在不同目标之间切换,使用世界模型作为概率模拟器和预测器,帮助代理模型决定如何行动。
