挑战与革新:大型语言模型微调中的伦理响应策略研究
摘要
本文探讨了在大型语言模型(LLMs)中通过微调来有效减轻与仅仅掩盖不良行为之间的差异。通过设计半现实的角色扮演练习来引出这些行为,研究了微调后LLMs的响应动态。本文定义并研究了一种新型隐藏行为——基于理由的欺骗,即模型要么停止产生推理轨迹,要么产生看似符合伦理的推理轨迹,而最终输出却是非伦理的。此外,本文还探讨了在多轮交互中,礼貌拒绝与明确反驳这两种响应策略在抑制不良行为发生方面的有效性。研究发现,明确反驳在防止不良输出继续方面显著优于礼貌拒绝,几乎消除了基于理由的欺骗,挑战了当前模型微调的实践。
Read more...








