革命性的恶意软件检测系统:轻量级、高准确率与强解释性

Detecting new obfuscated malware variants: A lightweight and interpretable machine learning approach

摘要

本文介绍了一种基于机器学习的高效、轻量级且可解释的恶意软件检测系统,该系统能够检测出训练数据中未出现的新型混淆恶意软件变种。研究团队通过训练15个不同的随机森林模型,每个模型针对CIC MalMem-2022数据集中的不同恶意软件子类型,实现了对15种恶意软件子类型的检测,尽管这些模型仅在一个恶意软件子类型(即间谍软件家族中的Transponder)上进行了训练。该系统通过仅使用最重要的五个特征,提高了模型的解释性,并实现了超过99.8%的高准确率和每文件5.7微秒的平均处理速度。此外,研究还展示了如何使用Shapley加法解释技术来解释模型预测,为网络安全防御提供了透明且深入的见解。

原理

该恶意软件检测系统的工作原理基于随机森林算法,这是一种集成学习方法,通过构建多个决策树并汇总其预测结果来提高准确性和控制过拟合。每个决策树在训练过程中使用自助采样法(bootstrap sampling)从训练数据中抽取样本,并在每个节点上随机选择一部分特征进行最佳分割。最终的预测结果是所有决策树预测的多数投票结果。在本研究中,通过训练15个针对不同恶意软件子类型的随机森林模型,并仅保留每个模型中最重要的五个特征,实现了对未见过的恶意软件子类型的检测。这种特征选择方法不仅减少了模型的复杂性,还增强了模型的解释性。

流程

  1. 数据预处理:从CIC-Malmem-2022数据集中移除不变特征,对数值特征进行缩放,并对分类变量进行编码。
  2. 模型训练:训练15个随机森林模型,每个模型针对一个特定的恶意软件子类型,使用该子类型的80%数据和等量的良性数据进行训练。
  3. 特征选择:每个模型仅使用通过随机森林特征重要性评估出的前五个最重要特征。
  4. 模型测试:使用剩余的20%数据和所有其他恶意软件子类型的数据对模型进行测试。
  5. 模型解释:使用Shapley加法解释技术(SHAP)来解释模型的预测结果,提供全局和局部层面的解释。

应用

该研究提出的恶意软件检测系统具有高度的适应性和解释性,能够有效检测未见过的恶意软件变种,适用于资源受限的设备如物联网设备。此外,该系统的快速处理能力和轻量级模型大小使其成为实时恶意软件监控的理想选择。未来,该技术可进一步集成到现有的网络安全框架中,提高对零日攻击和高级持续威胁的防御能力。