"小模型大智慧:基于DPO的高效记忆对话模型"
摘要
本文由Youngkyung Seo等人提出,针对多会话对话系统中记忆管理的挑战,介绍了一种基于小规模语言模型(sLLM)的高效且准确的记忆对话模型。该模型利用Direct Preference Optimization(DPO)算法,通过三种方法(SFT、DPO和DPO with SFT)有效地管理记忆,以准确反映对话历史。实验结果显示,该模型在记忆准确性和响应生成性能上均有显著提升,即使在模型规模较小的情况下,也能展现出优于大参数模型的性能。
Read more...








