探索人类节奏感知与同步:一种创新的计算模型及其应用前景
摘要
本文介绍了一种受物理和生物过程启发的计算模型,用于模拟人类节奏感知和同步能力。该模型采用储层计算框架,模拟小脑的功能,具有双神经元分类,并包含调节信息传递的参数,反映生物神经网络的特征。研究结果表明,该模型能够准确感知并适应人类可感知的节奏模式,表现出与人类节奏交互行为高度一致的行为。通过引入微调机制和延迟反馈,模型能够实现连续学习和精确的节奏预测。定制化设置的引入进一步增强了其模拟多样化人类节奏行为的能力,强调了该架构在时间认知任务建模以及人工和生物系统中节奏同步和预测研究中的潜力。因此,我们的模型能够透明地模拟阐明大脑产生与节奏相关行为的动态过程的认知理论。
原理
该模型基于储层计算(Reservoir Computing, RC)方法,特别是回声状态网络(Echo State Network, ESN),这是一种特定的循环神经网络(Recurrent Neural Network, RNN)。储层的隐藏状态根据当前输入和前一时间步的隐藏状态变化,遵循以下方程: [ h_{t+1} = (1 - \alpha)h_t + \alpha f(W_{in}x_t + Wh_t + \xi_t) ] [ \hat{y}t = W{out}h_t ] 其中,( W ) 是定义网络连接性的稀疏矩阵,( W_{in} ) 是输入权重,( W_{out} ) 是输出权重矩阵,( \alpha ) 是模型的泄漏率。( f(\cdot) ) 是一个非线性函数,本文中使用 ( \tanh(\cdot) )。( x_t ) 是时间步 ( t ) 的输入信号,( h_t ) 是时间步 ( t ) 的隐藏状态,( \hat{y}t ) 是时间步 ( t ) 的模型输出,即预测。预期的预测应满足 ( y_t = x{t+n} ),其中 ( n ) 是预测的时间步数:( \Delta t = n\delta t ),( \delta t ) 是模拟时间步长。
模型的关键创新在于引入了一种基于物理原理设计的储层结构,该结构基于二维有限差分时域(2D-FDTD)计算近似线性化欧拉方程,用于波在具有随机生成属性的介质中的传播。这种系统导致局部连接,具有清晰的拓扑结构,允许从输入或输出到显示特定动态的区域的连接。通过这种方式,模型能够模拟人类在节奏感知任务中的行为,特别是在预测节奏节拍时的人类般的(不)精确性。
流程
模型的典型任务如图1所示:模型被预先设定一个节奏(在此图中标记为视觉,参考后续人类预先设定),同时暴露于基于相同节拍的另一个节奏;其任务是预测预先设定节奏的节拍,并在预先设定消失后继续这样做。模型的储层结构如图1(b)所示,展示了储层的组件p和o。
在训练阶段,模型使用随机梯度下降(Stochastic Gradient Descent, SGD)最小化预测 (\hat{y}) 和目标 (y) 信号之间的均方误差(Mean Squared Error, MSE)。训练后,输出层能够识别正确的振荡器组合,从而提供目标节拍周期性和时间的初步估计。为了更准确地同步预测与目标节拍,引入了适应阶段。预测即将到来的节拍可能会失败,即“太早”或“太晚”,因此误差分为两部分。在这两种情况下,预测和目标的声音包络之间通常存在重叠。如果数据由离散时刻组成,峰值会人为地扩展。因此,使用峰值的斜率来计算预测 (\hat{y}) 和目标 (y) 信号的误差 (I_{early}) 和 (I_{late})。如果预测在下降而目标在上升,我们认为预测太早;否则,如果预测在上升而目标在下降,预测太晚。这两个值 (I_{early}) 和 (I_{late}) 直到达到更新步长并改变储层权重,然后在间隔结束时重新初始化为0,如算法1所示。
为了确保目标和预测在同一时间窗口内的幅度接近,首先对目标和预测值应用移动平均和softmax归一化: [ y_{norm}(t) = \frac{y_t - y_{mean}}{y_{softmax}(t)} ] [ \hat{y}{norm}(t) = \frac{\hat{y}t - \hat{y}{mean}}{\hat{y}{softmax}(t)} ] 其中 [ y_{softmax}(t) = \ln\left(\int_0^t e^{y_{t’}} e^{\frac{t’-t}{\tau}} dt’\right) ] [ \hat{y}{softmax}(t) = \ln\left(\int_0^t e^{\hat{y}{t’}} e^{\frac{t’-t}{\tau}} dt’\right) ] 其中 (\tau) 是一个跨越多个节拍间隔的指数平均时间常数。通过加权比较 (I_{early}) 和 (I_{late}),决定增加或减少加速因子 (\delta c) 的固定量,如算法1所示。如果预测太早,我们按比例减少所有c元素的值;如果太晚,我们增加c。通过这种方式,整个储层减速或加速。其次,提出了一种动态选择(DS)机制,用于控制储层中振荡的阻尼。通过识别对准确预测节拍至关重要的储层区域并降低这些区域的k值来修改W矩阵的极点。同时,对产生较小贡献的振荡进行阻尼。为此,每个储层内的神经元都被掩蔽,计算它们在每个时间窗口内与目标相比的MSE。当掩蔽时导致MSE最大减少的神经元被认为对准确预测贡献最大。相反,导致最小减少的神经元被认为贡献最小。我们通过调整这些神经元位置周围的参数k来调节这些神经元的活动,根据需要增强或减弱其活动。由于k的变化仅缓慢进行,即使在节拍或节奏模式改变后,这种机制也可以集中注意力于储层中的某个区域,从而也集中于特定的节奏行为。
应用
该模型的应用前景广泛,特别是在模拟人类节奏感知和交互行为的领域。它可以用于音乐创作、音乐治疗、虚拟现实和增强现实中的交互式体验,以及教育和培训中的节奏学习。此外,该模型还可以用于研究人类大脑在节奏处理中的动态过程,为认知科学和神经科学提供新的研究工具。通过进一步的开发和优化,该模型有望在多个领域实现更复杂和精细的人机交互应用。
