学习度量矩阵:增强Clifford群等变神经网络的灵活性与适应性
摘要
本文介绍了一种新颖的方法,通过学习度量矩阵来增强Clifford群等变神经网络(CGENNs)的灵活性和适应性。CGENNs利用Clifford代数和多向量作为整合群等变性的替代方法,确保神经表示中的对称约束。传统方法限制了内部网络表示为欧几里得或闵可夫斯基(伪)度量,而本文提出的方法允许度量矩阵在数据驱动的方式下通过梯度下降学习,从而使CGENN网络能够学习更灵活的表示。具体来说,我们通过完全填充度量矩阵并利用特征值分解,将这一可学习的组件以合理的方式整合到原始CGENN框架中。此外,我们利用范畴论的洞察力,将Clifford代数解释为范畴构造,确保我们方法的数学严谨性。我们在多个任务中验证了我们的方法,并展示了学习更灵活的潜在度量表示的优势。代码和数据可在https://github.com/rick-ali/Metric-Learning-for-CGENNs获取。
原理
本文提出的方法通过学习度量矩阵来增强CGENNs的灵活性。传统CGENNs仅支持对角和固定度量来建模内部网络表示,这些通常涉及欧几里得空间的标准度量和闵可夫斯基伪度量。理想情况下,我们希望模型能够学习尽可能丰富的内部表示,而不受对角度量矩阵的限制。因此,受最近关于潜在可训练几何的工作启发,我们提倡通过梯度下降以数据驱动的方式学习度量。
我们的贡献包括:
- 通过整合可学习的度量,扩展CGENNs,使网络能够动态调整其内部表示,而不是依赖固定的对角度量。
 - 利用特征值分解将完整的度量矩阵表示转换为中间计算可行的对角形式,这可以轻松地整合到CGENNs中,同时确保输入和输出数据在不同几何空间中保持一致。
 - 利用范畴论为我们的方法提供理论基础。通过将Clifford代数视为范畴构造,我们证明了网络内部应用的转换,确保我们的方法是数学上合理的。
 
我们在多个任务中验证了我们的方法,包括n体模拟、带符号体积计算和粒子物理中的顶标记。
流程
本文提出的方法的工作流程包括以下步骤:
- 初始化度量矩阵:从表示空间基本几何属性的对角矩阵(如Q = diag(1, 1, 1))开始,通过引入小扰动过渡到可学习的度量矩阵M。
 - 特征值分解:对度量矩阵M进行特征值分解,得到特征向量矩阵P和特征值对角矩阵∆。
 - 输入变换:将输入数据x通过P进行变换,将其表示在由P定义的新基下。
 - 网络处理:将变换后的输入x通过CGENN网络进行处理,使用对角矩阵∆进行计算。
 - 输出变换:将网络输出的结果通过P的逆变换回原始基下。
 
具体算法如下:
- ∆, P ← eigendecomposition(M)
 - x ← Embed(x)
 - x ← P(x)
 - y ← CliffordNetwork(x, ∆, *args)
 - y ← P−1(y)
 
通过这一流程,我们确保了输入和输出在不同几何空间中的一致性,同时允许网络在优化过程中动态调整其内部几何表示。
应用
本文提出的方法具有广泛的应用前景,特别是在需要处理复杂几何对称性和等变性的领域。CGENNs通过学习灵活的度量表示,能够更好地适应各种数据分布和任务需求,例如物理系统模拟、粒子物理分析和几何深度学习等。此外,该方法的理论基础和实验验证表明,它在处理具有复杂对称性的数据时具有显著优势,有望推动相关领域的进一步发展。
