ARES算法:通过AI反馈强化多模态思维链推理的新方法
摘要
本文介绍了一种名为ARES的两阶段算法,该算法结合了强化学习(RL)和监督微调(SFT),旨在通过多样化的AI反馈增强多模态思维链推理。ARES首先请求高级AI模型(如GPT-4和Claude 3 Opus)对每个句子在解决问题的贡献上进行评分,然后进行强化学习。接着,ARES请求AI模型纠正强化学习后的错误推理,通过SFT稳定模型。实验在多模态数据集ScienceQA和A-OKVQA上进行,结果显示ARES的推理能力相较于基线模型有显著提升,推理正确率提高了约70%,并且在多模态任务中的推理答案准确率平均提高了2.5%。
Read more...








