Atlas：利用大型语言模型实现云系统高效故障定位的新方法

Posted on 2024-07-11 in CS.AI • 14 words • 1 minute read

Last updated on 2024-07-12

摘要

本文介绍了一种名为Atlas的新型方法，用于自动合成云系统的因果图，以实现高效的故障定位。Atlas利用大型语言模型（LLMs）从系统文档、遥测数据和部署反馈中生成因果图，并结合数据驱动的验证步骤，以提高其准确性和可靠性。该方法在多种故障定位场景中进行了评估，显示出其生成因果图的能力不仅可扩展且具有普遍性，其性能远超传统的数据驱动算法，并与真实基准相当。

原理

Atlas的工作原理基于将系统知识转化为结构化表示的过程。它通过分解系统为各个组件，解释文本组件描述，并识别测量之间的成对因果关系。Atlas使用LLMs来理解和处理非结构化的语义信息，生成候选因果图，并通过数据驱动的验证步骤来识别和修正潜在的错误。这种方法不仅依赖于规则，还结合了数据驱动的因果发现技术，使得生成的因果图更加准确和实用。

流程

Atlas的工作流程包括以下几个步骤：

实例化代理：将系统中的每个组件视为一个代理，每个代理包含相关的组件描述、测量描述和资源描述。
测量枚举：为因果图创建节点，包括所有可用的系统组件测量。
因果关系检查：迭代评估测量对之间是否存在因果关系，并确定因果影响的方向。
图构建：将发现的个体因果关系组合成一个因果图，并通过删除未观察到的节点来简化图。
数据驱动的迭代优化：通过人类反馈和数据驱动的方法进一步优化因果图，以提高其准确性。

例如，Atlas在处理一个模型服务任务时，会从系统文档中提取组件和测量的描述，然后使用LLMs来识别和验证这些组件之间的因果关系，最终生成一个详细的因果图。

应用

Atlas的应用前景广泛，特别适用于需要高可靠性和可用性的现代云系统。其生成的因果图可以显著提高故障定位的效率和准确性，帮助工程师快速诊断和解决系统问题。此外，Atlas的方法还可以扩展到其他复杂系统的故障分析和性能优化中，具有很高的实用价值和研究潜力。