Octo-planner:引领设备端AI规划代理的新时代

Octo-planner: On-device Language Model for Planner-Action Agents

摘要

本文介绍了一种名为Octo-planner的高效设备端规划代理框架,旨在解决资源受限设备上的AI代理规划问题。该框架通过将规划和行动执行分离为两个独立组件,优化了AI代理的决策和问题解决能力。Octo-planner利用GPT-4生成和验证规划数据,并通过微调Phi-3 Mini模型,实现了在设备端的高效部署。此外,文章还提出了一种多LoRA训练方法,以灵活处理复杂的多领域查询,同时保持计算效率。Octo-planner的开发不仅提升了AI代理的性能和适应性,还通过开源模型权重,促进了设备端AI技术的进一步创新和应用。

原理

Octo-planner的工作原理基于将规划和行动执行分离的策略。规划阶段,Octo-planner接收用户查询并将其分解为一系列子步骤,这些子步骤基于可用的功能描述集。行动阶段,每个子步骤由行动模型Octopus执行,该模型专门设计用于设备端的功能调用。通过这种分离,每个模型可以针对其特定角色进行优化,从而提高整体性能和适应性。此外,Octo-planner采用模型微调而非上下文学习,显著降低了计算成本和能源消耗,同时提高了响应时间。多LoRA训练方法通过合并针对不同功能子集训练的LoRA权重,进一步增强了模型处理多领域复杂查询的能力。

流程

Octo-planner的工作流程分为两个主要阶段:规划阶段和行动阶段。在规划阶段,用户查询首先被输入到规划模型πplan中,该模型将查询分解为一系列执行步骤{τ1, τ2, …, τn}。每个步骤τi都基于可用的功能描述集F。在行动阶段,行动模型πaction根据当前状态Oi执行每个步骤τi,并生成下一个状态Oi+1,确保任务的连续执行。例如,用户查询“查找并增加屏幕亮度20%以更好地查看季度报告文档,然后通过蓝牙连接到办公室打印机”将被分解为三个步骤:查找文档、增加亮度、连接打印机。每个步骤由Octopus模型执行,确保任务的顺利完成。

应用

Octo-planner的应用前景广泛,特别适用于需要实时处理、离线功能或增强隐私保护的场景。由于其高效的设备端部署和灵活的多领域处理能力,Octo-planner可广泛应用于智能手机、物联网设备、智能家居系统等领域。随着技术的进一步发展和优化,Octo-planner有望成为推动智能设备普及和提升用户体验的关键技术。此外,通过开源模型权重,Octo-planner还将激发更多创新应用和研究,推动设备端AI技术的整体进步。