探索基于LLM的物理信息决策变换器:革新分布系统恢复的新方法

Exploring a Physics-Informed Decision Transformer for Distribution System Restoration: Methodology and Performance Analysis

摘要

本文探讨了一种基于物理信息决策变换器(Physics-Informed Decision Transformer, PIDT)的分布系统恢复(Distribution System Restoration, DSR)方法,该方法利用大型语言模型(Large Language Models, LLMs)的强大计算能力来解决传统深度强化学习(Deep Reinforcement Learning, DRL)在处理大规模复杂分布系统恢复问题时的可扩展性挑战。这是首次尝试将基础模型(包括LLMs)应用于电力系统操作中的传统DRL应用,特别是在DSR操作中。论文的主要贡献包括引入了一种新的LLM驱动的PIDT框架,并通过对比研究评估了该框架在解决DSR问题初期的性能。此外,该框架具有优化电力系统中序列决策的广泛应用潜力。

原理

PIDT框架的核心在于利用LLMs的计算能力来转换传统的DRL方法,以解决DSR操作中的可扩展性问题。该框架通过将DRL问题建模为一个条件序列建模问题,并利用LLMs(如GPT-x模型)的因果掩蔽变换器来生成最优动作。LLMs在上下文感知、生成序列建模和大规模高维数据处理方面的强大能力使得PIDT能够有效地处理复杂的物理约束和操作约束。

流程

PIDT框架的工作流程包括编码器、基于GPT的因果变换器和解码器三个主要部分。编码器接收奖励、状态和动作的轨迹作为输入,并生成令牌嵌入,这些嵌入随后被送入GPT模型进行进一步处理。在训练过程中,模型通过最小化预测动作和真实动作之间的交叉熵损失来更新参数。在推理过程中,模型仅保留最近的K个时间步的轨迹,以生成最优的控制动作序列。

应用

PIDT框架不仅限于DSR操作,还可以推广到其他电力系统操作中的序列决策优化。随着电力系统对稳定和连续供电的需求日益增长,PIDT框架在提高电网韧性、减少大规模停电影响方面具有广阔的应用前景。此外,该框架的灵活性和可扩展性使其能够适应不断变化的电力系统需求和技术进步。