探索神经网络解释性:电路忠诚度测量的挑战与前景

Transformer Circuit Faithfulness Metrics are not Robust

摘要

本文探讨了神经网络机制解释性工作中的一个关键问题:如何测量“电路”(即模型中负责特定任务的子图)的“忠诚度”。作者发现,现有的忠诚度测量方法对实验设计中的微小变化极为敏感,这表明忠诚度评分不仅反映了电路本身的特性,还受到研究者选择的方法论影响。文章强调了在解释性研究中明确声明实验方法的重要性,并开源了一个包含多种消融方法和电路发现算法的高效实现库。

原理

本文的核心在于探讨和验证神经网络中“电路”的忠诚度测量方法的鲁棒性。作者通过系统地改变消融方法的多个参数(如消融的粒度、组件类型、激活值、令牌位置、消融方向和组件集合),发现这些变化会显著影响电路忠诚度的评分。这种敏感性表明,电路的忠诚度评分不仅取决于电路本身,还受到实验设计选择的影响。

流程

文章首先定义了电路忠诚度的概念,并详细介绍了多种消融技术及其在Transformer模型中的应用。接着,作者通过案例研究,展示了不同消融方法对电路忠诚度评分的影响。具体流程包括:选择特定的电路(如间接对象识别电路),应用不同的消融方法(如节点消融和边缘消融),并观察模型输出的变化。通过这种方式,作者揭示了消融方法的选择如何影响电路的忠诚度评估。

应用

本文的研究对于自动化电路发现算法的发展具有重要意义,因为它表明评估电路忠诚度的方法论选择对于发现最优电路至关重要。此外,这一研究也强调了在机制解释性工作中明确实验设计和方法论的重要性,以提高研究的透明度和可重复性。未来,这一领域的研究可能会更加关注于开发更加鲁棒和一致的电路评估方法。