利用大型语言模型和知识图谱自动化提取网络威胁情报:方法与挑战

Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models

摘要

本文探讨了如何利用知识图谱(KGs)和大型语言模型(LLMs)自动从非结构化网络威胁情报(CTI)数据中提取可操作的情报。随着网络安全威胁的不断演变,从非结构化CTI数据中提取有价值的见解对于指导网络安全决策至关重要。文章提出了一种方法,通过评估不同的LLMs(如Llama 2系列、Mistral 7B Instruct和Zephyr)在提取CTI文本中的三元组(triples)的有效性,并使用这些三元组构建知识图谱,以提供结构化和可查询的威胁情报表示。实验结果表明,通过指导框架和微调,该方法在提取相关信息方面表现优异,但在大规模数据集上的应用仍面临挑战。

原理

本文的核心在于利用LLMs和KGs自动提取和结构化CTI数据。LLMs通过预训练和微调,能够理解和生成自然语言,从而从非结构化的CTI文本中提取出有用的三元组。这些三元组随后被用于构建知识图谱,其中每个三元组表示为一个实体及其之间的关系。通过这种方式,复杂的威胁情报关系被结构化,便于查询和分析。文章中提到的指导框架和微调技术进一步优化了信息提取过程,提高了提取信息的准确性和相关性。

流程

  1. 数据准备:使用手动标注的CTI报告数据集进行模型训练和评估。
  2. 模型选择与微调:选择多种开源预训练LLMs,并通过微调和指导框架进行优化。
  3. 信息提取:应用优化后的LLMs从CTI文本中提取三元组。
  4. 知识图谱构建:将提取的三元组用于构建知识图谱。
  5. 评估与优化:通过ROUGE指标和人工评估来评估提取的三元组的质量,并进行必要的优化。
  6. 应用:将构建的知识图谱应用于链接预测任务,以增强网络安全防御和响应策略。

应用

本文提出的方法在自动化CTI处理方面具有广阔的应用前景。通过构建的知识图谱,网络安全分析师可以更有效地理解和响应威胁,提高决策的准确性和效率。此外,该方法还可以扩展到其他领域,如金融欺诈检测、医疗信息管理等,利用LLMs和KGs处理和分析大量非结构化数据。