探索RLHF模型中的世界模型与代理模型权衡:预测与行动的交织挑战
摘要
本文探讨了RLHF(Reinforcement Learning from Human Feedback)对齐的语言模型(LMs)在执行基础任务——下一个令牌预测时面临的挑战。尽管这些模型在基准测试和长文本生成方面表现出色,但它们在预测任意文档中的下一个令牌时遇到了困难。文章提出,这种性能下降可能是由于RLHF模型在生成连贯长文本时通过隐式蓝图限制了随机性,从而集中概率于特定锚点跨度,限制了模型生成不包含这些跨度的文档的能力。文章进一步分析了这种权衡在当前最有效的代理模型中的表现,并探讨了即使在改进对齐技术的情况下,为何这种权衡可能仍然是预测模型和行动模型之间的基本权衡。
Read more...








