"破解软件漏洞预测难题：深度学习与抽象语法图的新结合"

Posted on 2024-06-18 in CS.AI • 9 words • 1 minute read

Last updated on 2024-07-05

摘要

本文由Jinghua Groppe等人撰写，针对软件漏洞预测中深度学习方法的局限性，提出了一种新的解决方案。当前的深度学习方法主要依赖于软件代码的原始文本作为图节点特征，这限制了模型学习代码内在功能的能力。文章指出，变量命名的无限可能性是导致这一问题的主要原因。为了解决这一问题，作者引入了名为“名称依赖”的新型边和基于此的抽象语法图（ASG），以及一种高效的节点表示方法——3-property编码方案。这些技术能够去除代码中的具体变量名，使深度学习模型能够更好地学习隐藏在多样代码表达中的软件功能。实验结果表明，基于这些技术的深度学习模型在漏洞预测和内存需求方面均优于现有方法。

原理

本文的核心创新在于通过引入“名称依赖”边和抽象语法图（ASG）来解决变量命名带来的问题。名称依赖边用于表示变量与其声明之间的关系，即使在去除变量名后，也能保持代码的语义信息。ASG是在标准抽象语法树（AST）的基础上，通过添加名称依赖边而形成的图结构。此外，3-property编码方案通过三个属性（类、名称和数据类型）来表示代码图中的节点，这种编码方式不仅去除了变量名的多样性，还大大减少了内存需求，提高了模型的泛化能力。

流程

文章提出的工作流程首先是通过分析代码中的变量及其声明关系，构建包含名称依赖边的ASG。随后，使用3-property编码方案对ASG中的节点进行编码，这一步骤包括去除具体的变量名和标准化其他代码元素（如字面量和数组声明）。最后，利用这些编码后的图结构训练深度学习模型进行软件漏洞预测。例如，一个简单的代码片段在经过ASG构建和3-property编码后，可以转化为一个去除了变量名的图结构，这个结构能够被深度学习模型有效利用。

应用

本文提出的技术不仅限于软件漏洞预测，还可以广泛应用于软件分析和软件工程的多个领域。由于其能够有效减少代码表示的多样性和提高模型的泛化能力，这些技术有望在代码理解、代码重构和软件维护等多个方面发挥重要作用。随着技术的进一步发展和优化，预计将在软件开发和维护领域带来革命性的变化。