探索人工智能在企业知识工作中的应用:WorkArena++ 基准的挑战与前景
摘要
WorkArena++ 是一篇关于人工智能在企业环境中应用的论文,主要探讨了大型语言模型(LLMs)和视觉语言模型(VLMs)在自动化知识工作任务中的能力。论文提出了一个名为 WorkArena++ 的新基准,包含682个现实工作流程任务,旨在评估网络代理在规划、问题解决、逻辑/算术推理、信息检索和上下文理解等方面的能力。通过对比最先进的LLMs和VLMs以及人类工作者的表现,论文揭示了这些模型在实际工作环境中作为有用助手所面临的挑战。此外,论文还提供了一种机制,可以轻松生成数千条真实观察/行动轨迹,用于微调现有模型。总体而言,WorkArena++ 旨在为社区提供一个有用的资源,以推动自主代理的发展。
原理
WorkArena++ 的工作原理基于对LLMs和VLMs在复杂企业任务中的应用进行深入评估。这些模型通过模仿人类的智能行为,能够执行规划和推理任务。论文通过设计682个真实的工作流程任务,测试了模型在多个方面的能力,包括但不限于数据驱动的决策制定、复杂记忆和上下文理解。这些任务被设计为需要模型具备高级技能,如问题解决和记忆,以便更好地评估模型在解决复杂工作任务中的能力。此外,通过提供一个机制来生成大量的真实观察/行动轨迹,论文允许对模型进行微调,以提高其在实际工作环境中的表现。
流程
WorkArena++ 的工作流程涉及多个步骤,从任务的定义到模型的评估。首先,任务被设计为模拟真实企业环境中的工作流程。每个任务都是一个逻辑组合的简单任务链,例如,一个IT工作者被要求补充库存低于某个阈值的物品。代理通过系统接收指令,然后必须阅读仪表板以提取所有库存低的物品,从服务目录中重新订购物品以达到最小库存量,并在任务完成后关闭分配给他们的票据。评估过程中,模型和人类工作者都被要求解决这些任务,通过对比他们的成功率来揭示模型的局限性和人类的相对优势。
应用
WorkArena++ 的应用前景广泛,主要集中在提高企业环境中知识工作的自动化水平。通过评估和改进LLMs和VLMs在复杂任务中的表现,可以显著提高工作效率,减少单调低价值任务的时间消耗。此外,这种自动化还可以提高工作质量,减少人为错误,并为员工腾出时间专注于更复杂、技能密集型的工作。随着技术的进一步发展,预计这些代理将在更多领域得到应用,包括但不限于客户服务、数据分析和项目管理。
