揭秘Transformer:机械可解释性的前沿探索与应用

A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models

摘要

本文综述了机械可解释性(MI)在解释基于Transformer的语言模型(LMs)中的应用,强调了其对理解模型内部计算机制的重要性。MI通过逆向工程模型组件和基本计算来提供对LM行为的深入洞察,并探讨了评估MI结果的方法、重要发现及应用。文章还指出了当前领域的差距,并讨论了未来的研究方向。

原理

机械可解释性(MI)的核心在于通过分解模型为更小的组件和更基本的计算来解释LMs。MI研究分为三个主要领域:特征研究、电路研究和通用性研究。特征研究关注模型激活中编码的人类可解释输入属性;电路研究则关注这些特征如何被提取并用于实现特定的LM行为;通用性研究探讨在不同LMs和任务中相似特征和电路的存在程度。这些研究通过多种技术,如Logit Lens、探针技术、稀疏自动编码器(SAE)等,来揭示模型的内部工作机制。

流程

MI的工作流程从制定研究问题开始,随后通过一系列步骤来回答这些问题。对于特征研究,首先进行目标特征发现或开放式特征发现,然后使用探针技术、Logit Lens或可视化技术来解释激活模式。对于电路研究,首先通过因果中介分析(CMA)和剔除技术进行定位,然后生成并验证关于电路组件功能的假设。整个流程强调了从观察到解释再到验证的系统性方法。

应用

MI的应用前景广泛,包括模型增强、AI安全和其他下游任务。在模型增强方面,MI有助于知识编辑和LM生成引导,通过理解模型内部的知识存储和激活机制来改进模型输出。在AI安全方面,MI可以帮助识别与危险行为相关的特征,并指导模型生成更安全的内容。此外,MI的洞察还可以用于提高分类器的泛化能力等其他应用。