探索大脑的视觉密码:Vi-ST模型如何解码动态视觉场景的神经编码

Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models

摘要

本文由Rining Wu等人提出,旨在解决动态视觉场景与视网膜神经编码之间的内在时间关系问题。传统的研究多基于静态图像或人工视频,忽略了复杂的时间关系。为此,作者提出了Vi-ST模型,这是一个结合了自监督Vision Transformer(ViT)先验的时空卷积神经网络,旨在解析视网膜神经群体基于时间的编码模式。该模型在泛化测试中表现出强大的预测性能,并通过详细的消融实验验证了各时间模块的重要性。此外,文章还引入了一种视觉编码评估指标,该指标考虑了时间因素,并探讨了不同数量的神经群体对互补编码的影响。总体而言,Vi-ST模型为大脑中动态视觉场景的神经编码提供了一个新颖的建模框架,有效地将我们对视频的大脑表征与神经活动对齐。

原理

Vi-ST模型的核心在于其能够准确地建立复杂动态自然场景与视网膜视觉编码之间的映射。模型主要由两大部分组成:基于ViT先验的视频特征提取器和神经脉冲对齐模块。视频特征提取器利用预训练的ViT模型处理视频帧,提取空间特征,并将这些特征打包成一个时空立方体,随后通过因果三维时间卷积网络(C3TCN)处理,以模拟时空动态。神经脉冲对齐模块则利用视网膜神经节细胞(RGCs)的感受野信息作为条件因素,通过三维自适应层归一化(AdaLN)模块与时空特征融合,最终通过一系列因果多尺度时空(CMST)块来模拟特定数量RGC神经元的神经活动,从而产生最终的脉冲预测。

流程

Vi-ST模型的工作流程首先从视频中提取特征,使用预训练的ViT模型处理每一帧视频,提取其空间特征。这些特征随后被组合成一个时空立方体,并通过C3TCN进一步处理以捕捉视频帧间的时空关系。接着,RGCs的感受野信息被用作条件因素,通过3D AdaLN Zero模块与时空特征融合。融合后的特征被送入CMST块进行处理,这些块通过不同的时间尺度捕捉多尺度时间特征,并通过1×1×1的三维卷积层进行映射。最后,通过残差连接保留前一层的信息,并通过平均池化操作压缩空间大小,最终通过线性层得到RGCs的预测结果。

应用

Vi-ST模型的应用前景广泛,特别是在神经科学和计算生物学领域,它能够帮助研究人员更好地理解大脑如何处理和编码动态视觉信息。此外,该模型在开发视觉假体和增强现实技术方面也具有潜在的应用价值,因为它能够模拟和预测视网膜对复杂视觉刺激的反应,从而为这些技术提供更精确的生物学依据和算法支持。