KITA:革命性的任务导向对话代理框架

LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies

摘要

本文介绍了一种基于大型语言模型(LLM)的开放领域集成任务和知识助手框架KITA。KITA旨在通过可编程策略创建能够处理复杂用户交互的任务导向对话代理。与传统的对话树相比,KITA提供了更可靠的基于事实的响应,并通过其表达性规范KITA Worksheet实现代理策略的可控性。通过62名参与者的实际用户研究,KITA在执行准确性、对话行为准确性和目标完成率方面分别比GPT-4的函数调用基线高出26.1、22.5和52.4分。此外,文章还发布了22个经过手动校正以确保准确性的真实用户对话。

原理

KITA框架的核心在于其可编程策略和KITA Worksheet的声明式范式。KITA Worksheet允许开发者以声明式的方式定义代理的行为和对话流程,而不是通过复杂的命令式方法。这种设计使得KITA能够灵活地处理多样化的用户查询,并有效地整合知识源。KITA通过LLM的语义解析器将用户的话语转换为任务API调用和数据库查询的组合,然后通过代理策略维护对话状态并生成响应。

流程

KITA的工作流程包括以下几个关键步骤:

  1. 用户输入解析:用户的话语通过LLM的语义解析器被解析为具体的任务API调用和数据库查询。
  2. 对话状态维护:代理策略根据解析结果更新对话状态,记录当前对话的上下文信息。
  3. 对话行为生成:代理策略根据当前对话状态生成相应的对话行为,如询问用户更多信息或报告查询结果。
  4. 响应生成:最终的响应由响应生成器根据对话状态和对话行为生成,并返回给用户。

例如,当用户请求预订纽约市的意大利餐厅时,KITA会解析用户的请求,调用相应的API和数据库查询,生成对话行为,并最终提供餐厅选择和预订信息。

应用

KITA框架的应用前景广泛,特别适用于需要处理复杂用户交互和集成多样化知识源的任务导向对话系统。潜在的应用领域包括客户支持、金融服务、医疗表格填写等。KITA的高准确性和灵活性使其成为构建高效对话代理的有力工具。