探索MobileExperts:引领移动设备操作代理的新纪元
摘要
本文介绍了一种名为MobileExperts的创新型多模态多智能体框架,专为安卓移动设备设计,旨在提高设备操作代理(DOA)的智能水平并降低推理成本和时间。MobileExperts通过动态组建专家团队和多智能体协作,有效解决了处理复杂任务和减少高推理成本的问题。该框架引入了工具制定和双层规划机制,通过实验验证了其在不同智能级别任务上的优越性能,实现了约22%的推理成本降低。
原理
MobileExperts的核心工作原理基于两个关键特性:代码组合过程记忆(工具)制定和专家协作通过双层规划。首先,通过利用LLM的代码编写能力,MobileExperts将专家的基本操作通过代码组合形成可重用的代码块工具,这些工具存储在系统中所有专家共享的过程记忆中,从而减少工具形成成本并有效提高操作效率。其次,采用双层规划方法解决长期规划问题,第一层是团队任务分配层,任务被分解为依赖的子任务由专家执行,形成专家间的协作网络;第二层是专家任务分解层,接收到的子任务进一步分解为更小的动作单元,逐步实现目标。
流程
MobileExperts的工作流程从接收用户请求开始,系统检查专家池以确定合适的团队组建。如果没有合适的专家,系统使用启发式算法创建新专家。新专家随后进入探索阶段,积累经验以适应任务。所有专家就位后,基于专家的画像生成双层计划,然后专家以自我验证的方式完成任务。例如,在探索阶段,每个专家根据当前需求R分解为多个探索子任务S,并通过个人探索阶段生成工具集T和设备特定的界面记忆Minterface及洞察记忆Minsight,从而成为用户设备领域的专家。
应用
MobileExperts的应用前景广阔,特别适用于需要复杂操作和高效推理的移动设备任务。该框架不仅提高了移动设备操作代理的智能水平,还通过减少推理成本和时间,为DOA领域提供了更高效的任务执行模式。未来,MobileExperts有望在个人电子设备、软件工程、社交模拟等多个领域发挥重要作用,推动多模态多智能体系统的发展。
