"利用大型语言模型自动化建筑能源建模:创新方法与实践"

Scaling Data-Driven Building Energy Modelling using Large Language Models

摘要

本文由Sunil Khadka和Liang Zhang共同撰写,提出了一种利用大型语言模型(LLM)来解决建筑管理系统(BMS)数据驱动建模中的可扩展性问题的方法。文章指出,传统的BMS数据处理和模型开发过程需要大量的人工操作,这不仅耗时耗力,而且成本高昂。为了解决这一问题,作者提出了一种基于LLM的自动化方法,通过生成处理BMS结构化数据的代码,自动构建数据驱动模型,从而减少人工干预,提高效率和模型的准确性。文章通过案例研究展示了这种方法的有效性,特别是在减少人工劳动成本和提高代码生成准确性方面取得了显著成果。

原理

本文提出的方法利用大型语言模型(LLM)的代码生成能力,通过设计一系列的提示模板(prompt templates)来指导LLM生成用于数据驱动建模的Python代码。LLM通过深度学习技术,特别是基于transformer架构的自注意力机制,能够理解和生成符合特定编程任务的代码。这些模型在训练过程中接触了大量的编程语言、代码示例和技术文档,因此能够理解和生成多种编程语言的代码。通过精心设计的提示模板,LLM能够自动化地完成数据准备、特征选择、模型选择、超参数调整和模型评估等步骤,从而实现高效的数据驱动建模。

流程

文章详细描述了基于LLM的数据驱动建模的工作流程,包括数据准备、特征选择、数据分割、模型选择、超参数调整、模型评估和模型展示七个步骤。每个步骤都有相应的提示模板来指导LLM生成代码。例如,在数据准备步骤中,提示模板会指导LLM生成处理输入和输出CSV文件的Python代码;在特征选择步骤中,提示模板会指导LLM选择影响目标变量的重要特征。通过这种逐步的提示方式,LLM能够生成完整的代码链,实现从数据处理到模型构建的全自动化。

应用

本文提出的方法不仅适用于建筑管理系统的数据驱动建模,还可以扩展到其他需要复杂数据处理和模型开发的领域。随着LLM技术的不断进步,这种方法有望在能源管理、环境监测、智能交通等多个领域发挥重要作用,提高数据处理和模型开发的效率,降低成本,推动智能化和自动化的发展。