ARES算法:通过AI反馈强化多模态思维链推理的新方法
摘要
本文介绍了一种名为ARES的两阶段算法,该算法结合了强化学习(RL)和监督微调(SFT),旨在通过多样化的AI反馈增强多模态思维链推理。ARES首先请求高级AI模型(如GPT-4和Claude 3 Opus)对每个句子在解决问题的贡献上进行评分,然后进行强化学习。接着,ARES请求AI模型纠正强化学习后的错误推理,通过SFT稳定模型。实验在多模态数据集ScienceQA和A-OKVQA上进行,结果显示ARES的推理能力相较于基线模型有显著提升,推理正确率提高了约70%,并且在多模态任务中的推理答案准确率平均提高了2.5%。
原理
ARES算法的核心在于其两阶段过程:首先,通过请求高级AI模型对思维链中的每个句子进行评分,这些评分作为强化学习的奖励信号,使得模型能够关注到每个句子的价值,从而进行更精细的调整。其次,在强化学习阶段后,模型可能会产生重复或不完整的句子,此时通过请求AI模型进行纠正,并利用这些纠正后的数据进行监督微调,以稳定和优化模型输出。这种交替进行的强化学习和监督微调,使得模型能够在不进行大量超参数调整的情况下,有效地提升推理能力。
流程
ARES的工作流程包括以下步骤:
- 评分阶段:模型生成思维链推理,然后请求高级AI模型对每个句子进行评分,评分基于句子对解决问题的贡献程度。
 - 强化学习阶段:使用这些评分作为奖励信号,进行强化学习,优化模型策略。
 - 纠正阶段:在强化学习后,模型可能会产生错误或不完整的推理,此时请求AI模型进行纠正。
 - 监督微调阶段:使用纠正后的数据进行监督微调,以稳定和优化模型输出。
 - 迭代:重复上述过程,直到模型性能达到满意水平。
 
应用
ARES算法在多模态任务中显示出巨大的潜力,特别是在需要复杂推理和解释的任务中,如科学问题解答和视觉问答。随着AI模型的进一步发展和优化,ARES有望在教育、研究、医疗等多个领域发挥重要作用,提供更准确、更可靠的推理和决策支持。
