多模态大型语言模型在组合优化中的革命性应用:解决旅行商问题的视觉推理与多代理方法
摘要
本文探讨了多模态大型语言模型(MLLMs)在视觉上解决旅行商问题(TSP)和多旅行商问题(mTSP)的能力。通过引入一种新颖的多代理方法,利用MLLM框架中的多个专门代理,每个代理致力于优化这些组合挑战的解决方案。实验结果显示,多代理模型在零样本设置和多代理零样本上下文场景中显著提高了TSP和mTSP问题的解决方案质量。这些发现强调了MLLMs在计算优化中的强大工具潜力,为这一有前景的领域提供了进一步发展的见解。
原理
本文提出的方法利用MLLMs的视觉推理能力,通过多个代理(如Initializer、Critic和Scorer)协同工作,迭代地提出、改进和评估基于视觉的解决方案。Initializer代理通过视觉检查提出初始路线,Critic代理通过迭代改进这些路线,而Scorer代理则基于视觉清晰度和效率评估这些解决方案。这种多代理系统模仿了人类通过视觉直观地解决问题的能力,无需依赖传统的数值计算方法。
流程
本文介绍了两种多代理策略:Multi-Agent 1和Multi-Agent 2。Multi-Agent 1包括Initializer、Critic和Scorer三个代理,而Multi-Agent 2仅包括Initializer和Critic两个代理。这两种策略都通过视觉线索推断高效路线,模仿人类视觉问题解决能力,无需依赖节点坐标或距离矩阵等数值数据。实验评估了这些策略在解决TSP和mTSP问题中的有效性,并通过Wilcoxon signed-rank测试进行了统计验证。
应用
本文提出的MLLM多代理系统在解决复杂的组合优化问题如TSP和mTSP方面显示出巨大的潜力。这些方法不仅在理论计算优化中具有应用价值,而且在实际应用领域如物流、规划和网络设计中也具有广泛的应用前景。通过进一步的研究和开发,这些方法有望在更广泛的实际问题中实现高效和直观的解决方案。
