厦门免费医学论文发表-FORCE 训练的尖峰神经网络和速率神经网络的比较表明,尖峰网络在嘈杂的交叉试验触发率下学习缓慢

2025-07-26

厦门免费医学论文发表-FORCE 训练的尖峰神经网络和速率神经网络的比较表明,尖峰网络在嘈杂的交叉试验触发率下学习缓慢

托马斯·罗伯特·牛顿,威尔滕·尼古拉


抽象

与更直接地模拟神经放电率的标准循环神经网络 (RNN) 相比,训练尖峰循环神经网络 (SRNN) 提出了重大挑战。在这里,我们通过在监督学习任务上训练尖峰神经元及其参数匹配的基于瞬时速率的RNN的网络来研究这些困难的根源。我们将 FORCE 训练应用于泄漏的积分和射击尖峰网络及其在各种动态任务中匹配的基于速率的对应物,保持 FORCE 超参数相同。我们发现,在缓慢的学习速率下,尖峰和速率网络的行为相似:FORCE训练识别了高度相关的权重矩阵解决方案,并且两种网络类型都表现出重叠的超参数区域,以实现成功收敛。值得注意的是,这些权重解决方案在很大程度上是可以互换的——在尖峰网络中训练的权重可以转移到速率网络,反之亦然,同时保持正确的动态解码。然而,在快速学习速度下,学习解之间的相关性急剧下降,解不再完全互换。尽管如此,当速率网络的权重矩阵被从尖峰网络中学到的权重矩阵替换时,速率网络仍然运行良好。此外,这两种网络类型在不同规模下表现出不同的行为:更快的学习提高了速率网络的性能,但除了增加不稳定性外,对尖峰网络影响不大。通过分析推导,我们进一步表明,FORCE中较慢的学习率有效地充当神经碱基主成分的低通滤波器,选择性地稳定尖峰和速率网络中的主要相关成分。我们的结果表明,训练尖峰网络的一些困难源于尖峰系统固有的尖峰时间变异性——速率网络中不存在的变异性。通过选择适当缓慢的学习速度,可以在 FORCE 培训中缓解这些挑战。此外,我们的研究结果表明,FORCE为尖峰网络学习的解码解决方案近似于基于交叉试验发射速率的解码。


作者总结

与训练与神经放电率更紧密相关的标准循环神经网络相比,训练尖峰神经网络要困难得多。为了理解原因,我们使用 FORCE 技术在相同的监督学习任务上训练了参数匹配的尖峰和基于速率的网络。我们发现,对于缓慢的学习速率,学习到的尖峰权重在尖峰和放电速率网络中高度相关且可互换。然而,当两个网络都快速学习时,与速率网络相比,尖峰网络的性能没有明显的提高,尖峰网络的学习速度更快会导致不稳定。当学习速度很快时,这些网络还会发现与其权重不相关的解,这些解只能在一个方向上互换,从尖峰到速率。这表明FORCE为尖峰网络学习的解码解近似于基于交叉试验发射速率的解码。然后,我们通过分析确定,在学习速率较慢的情况下,FORCE 充当神经碱基主成分的低通滤波器,其中主成分在尖峰和速率网络中高度相关。


数字

Table 5表6图1表1图2图3图4图5图6Table 2Table 3Fig 7Table 4Fig 8表5表6图1表1图2

     

引文: Newton TR, Nicola W (2025) FORCE 训练的尖峰和速率神经网络的比较表明,尖峰网络在嘈杂的交叉试验触发率下学习缓慢。公共科学图书馆计算生物学 21(7): 电子邮件 1013224。 https://doi.org/10.1371/journal.pcbi.1013224


编辑 器: Anna Levina,图宾根埃伯哈德卡尔斯大学:德国图宾根埃伯哈德卡尔斯大学


收到: 2024 年 9 月 4 日;接受: 2025 年 6 月 10 日;发表: 7月 21, 2025


版权所有: © 2025 牛顿,尼古拉。这是一篇根据知识共享署名许可条款分发的开放获取文章,允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。


数据可用性: 所有代码均可在 https://github.com/Trnewton/RateVsSpike [44] 中找到。


资金: 这项工作由 NSERC 发现资助(DGECR/00334-2020 至 WN)和加拿大计算神经科学二级研究主席(CRC-2019-00416 至 WN)资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。


利益争夺: 提交人声明不存在竞争利益。


介绍

神经元相互交流的一种方式是通过动作电位或尖峰[1,2]。 神经科学中的一个核心问题是神经元如何使用这些尖峰来编码信息和执行计算。一种观点认为,个别峰值本身没有意义;相反,计算的相关量是尖峰在神经元之间传输的放电速率或频率[3,4]。 相反,有人认为尖峰的精确或相对时间对于神经计算很重要[4]。明智的做法是考虑哪种表示(速率或峰值)捕获给定系统和建模任务的基本信息。如果发射速率描述捕获了系统的大部分行为,则我们将系统定义为速率编码,从而使单个峰值的精确时间可以忽略不计。相反,如果纯粹基于速率的描述无法捕获其行为并且尖峰时间至关重要,我们将系统描述为尖峰编码。有关速率与尖峰时间争论的更深入讨论,请参阅 Brette (2015) [4]。在这里,我们证明,在许多情况下,交叉试验发射率模型足以捕获 FORCE 学习技术用于训练尖峰神经网络的信息。


学习低维动力系统就是这样一项任务,其中尖峰和速率之间的差异变得显而易见。在使用各种技术训练循环神经网络来学习低维动力系统方面取得了巨大的成功[5\u20129],然而,在尖峰网络中学习要困难得多。尖峰神经元和基于速率的神经元之间最重要的区别之一是用于训练其生成网络的技术。基于尖峰的神经元通常更难训练,并且由于用于现象学描述尖峰(整合和放火神经元)和突触传播的微分方程的不连续性,这使导数的计算变得复杂。因此,基于梯度的优化例程不能立即应用于尖峰网络。相比之下,基于速率的神经元很容易使用基于梯度的技术进行训练,并表现出显着的灵活性和性能[10]。最近,已经开发出一系列不同的方法来训练尖峰神经网络。例如,神经工程框架(NEF)[11]、预测编码[12\u201215]、代理梯度[16,17]和FORCE[6,7,18]。


所有这些训练技术都使用自上而下的方法,该方法使用规定的目标任务(主管)来确定执行任务所需的网络连接。在 NEF 中,神经元调整曲线用于优化权重,而预测编码则使用神经元之间快速、精确的突触相互作用来平衡神经活动。然而,在预测编码的情况下,已经表明可以使用局部生物学上合理的学习规则来学习创建这种平衡活动所需的突触连接[19,20]。 代理梯度方法与其他技术的不同之处在于,它使用神经元导数相对于其输入电流的平滑近似,称为伪导数,以实现基于梯度下降的反向传播以进行网络训练[21]。然而,所有这三种方法都取决于网络中使用的特定类型的神经元模型。相比之下,基于 FORCE 的技术与所使用的底层网络模型无关。这提供了一个优点,即它可以应用于具有速率[6]和基于尖峰的神经元[18]的训练网络,而无需进行重大修改。尽管如此,FORCE 训练速率和尖峰神经网络存在潜在差异,目前尚未对其进行彻底研究。


在这里,我们比较了FORCE训练的泄漏-积分和发射(LIF)网络及其相应的参数匹配瞬时发射速率网络。我们首先介绍了泄漏积分和发射(LIF)尖峰模型和相应的LIF瞬时放电速率神经元模型。放电率模型根据神经元的瞬时输入电流计算神经元的预期放电率,有效地捕捉每个时刻的时间平均放电行为。然后,我们将这两种类型的神经元模型连接到尖峰网络和速率网络中,我们证明它们都可以使用FORCE进行训练[6,18],并且两个网络中的初始权重、神经元参数和FORCE超参数完全匹配。我们引入速率模型的目的不是声称尖峰网络和速率网络之间具有普遍的等效性,而是研究 FORCE 算法如何利用特定于每个模型的信息。如果训练后,两个网络表现出相似的行为,我们可以得出结论,在 FORCE 训练的背景下,模型之间的区别是无关紧要的。


我们发现,当学习速率较慢时,尖峰和触发速率网络的学习连通性结构与学习的权重解可以互换的点高度相关,尖峰网络的学习权重导致速率网络中的任务动态成功,反之亦然。然而,当学习速度快时,就会出现实质性的差异。首先,学习的权重之间的相关性急剧下降,互换性变得单向:来自尖峰网络的权重仍然可以在速率网络中发挥作用,但反之则不然。其次,我们发现尖峰网络本质上具有更嘈杂的神经输出,与速率网络相比,这导致误差缩放更差,并阻止学习到的连通性收敛到稳态结构。第三,速率网络受益于更快的学习率,在超参数空间中减少了误差和更大的收敛区域,而尖峰网络没有明显的改进。这些发现表明,与尖峰神经网络中的 FORCE 训练相关的一些挑战源于算法学习嘈杂的、试验平均的发射速率解。这种解决方案在更高的学习率下会不稳定,导致培训困难。


结果

网络模型

为了研究尖峰神经网络和基于速率的神经网络的差异(图1),我们使用FORCE方法在一系列任务上训练尖峰神经网络及其相应的参数匹配瞬时发射速率网络[6,18]。在《材料与方法》中,通过分析孤立的LIF神经元在恒定输入电流下的稳态放电率,得出了相应的速率模型。值得注意的是,当使用 FORCE 进行训练时,生成的 LIF 和发射速率网络表现出密切相关的特性。通过使用精确参数匹配的网络,我们可以比较从尖峰和速率网络得出的权重矩阵解,以确定这些解是否可以互换以及在什么条件下。如果权重确实可以互换,这意味着网络在功能上以相似的方式运行。


缩略图下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图1. 泄漏积分和火速尖峰和等效速率网络。


在标准尖峰网络中,每个神经元都有一个由线性动力学控制的膜电压。一旦该电压超过阈值,神经元就会触发尖峰,然后通过一组双指数滤波方程进行过滤。然后将产生的过滤尖峰电流或突触后电流用作神经元的输出。在放电率网络模型中,计算给定每个神经元的输入电流的瞬时理论放电率。然后,该放电率再次被双指数滤波方程过滤,以产生神经元输出的突触后电流。


https://doi.org/10.1371/journal.pcbi.1013224.g001


我们考虑了 N 个泄漏整合和放电神经元的网络,具有膜时间常数和双指数过滤突触:



(1)


(2)


(3)


(4)

突触上升和衰减时间在哪里 和 是。我们还注意到,我们已经将单位电阻吸收到输入电流中,因此 (1) 可以用伏特表示。有关更多详细信息,请参阅材质的 Leaky Integrate-and-Fire Network 部分。


第 i个神经元的电压由下式给出。神经元 i 在时间 t 发射其第 k个尖峰益当阈值电压超过时。每次尖峰后,电压被重置为并保持在固定的耐火期 ()。每个神经元接收一个电流,由下式给出:



(5)

其中 是 (3) 中由于过滤后的尖峰和 I 给出的突触后电流偏见是设置在流变基 (I偏见= −40 mV)。通过FORCE算法训练连通性权重矩阵,使尖峰网络能够近似某个M维动力系统。该系统的近似值由其给出,该近似值是使用应用于过滤尖峰的线性解码器计算的。表 1 列出了两种网络类型中使用的神经元参数,并在材料的泄漏积分和火网络部分进行了详细解释。


缩略图下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

表 1. 泄漏整合和触发神经元模型参数。

https://doi.org/10.1371/journal.pcbi.1013224.t001


在FORCE训练的网络(图2)中,突触连通矩阵由随机静态权重和对权重矩阵的学习低秩扰动的总和组成:


缩略图下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图2. FORCE 训练尖峰 LIF 和 LIF 匹配速率网络。


FORCE方法中使用的单层递归神经网络由:一组固定的储层权重、一组固定编码器权重和一组学习的解码器权重组成。储层网络创建了一个由丰富的混合动力学组成的混沌池,用于线性解码目标监督器。该解码器(S 表示尖峰,R 表示速率)是使用递归最小二乘法 (RLS) 算法在线学习的。然后,编码器砝码将解码后的输出反馈到储液器中以稳定动力学。


https://doi.org/10.1371/journal.pcbi.1013224.g002



(6)

式中,是储层权重矩阵,是反馈编码器矩阵,尖峰网络的线性解码器权重矩阵,M为目标动力学的维数。网络权重的静态部分由标量强度参数 G 和稀疏随机矩阵组成。静态权重用于将网络初始化为高维混沌动力学状态,我们使用参数 G 进行控制。权重矩阵的另一部分由学习解码器、静态随机编码器和标量强度参数 Q 组成。学习到的线性解码器的主要任务是解码神经动力学以产生网络输出,但也与编码器配合使用,通过反馈连接稳定网络动力学。编码器部分定义了神经元对学习到的输出动态的调谐属性。参数Q用于控制反馈的强度,以平衡参数G控制的静态权重矩阵引起的混沌动力学。通过引入Q和G,可以控制网络的宏观动态参数;要么通过增加(减少)G使系统更加(减少)混乱,要么通过增加(减少)Q来在神经放电率中产生更多(更少)结构化异质性[22,23]。


随机矩阵是根据正态分布生成的,平均值为 0,方差为 其中 p 是矩阵的稀疏度,N 是神经元的数量。这使权重与连接数的平方根的倒数成正比[18,23]。 我们还考虑了矩阵中每一行的样本均值被显式设置为0的情况[18]。编码器的组件是从 M 维单位平方上的均匀分布中绘制的,其中 M 是目标动力学的维度。


上面的LIF网络有一个相应的瞬时速率方程组[1,24]:






其中 R我(t) 充当神经元 i 的放电率作为输入电流的函数:




其中我们为发射速率网络引入了新的线性解码器矩阵。这里所指的放电率应理解为单个神经元随时间推移的平均瞬时放电率,而不是在神经元群或多次试验中的平均化[4]。


为了确定两个网络如何学习低维动力学,瞬时速率网络和LIF尖峰网络的参数完全匹配,包括初始静态权重矩阵和随机生成的编码器。训练后,每个模型都会有一个关联的解码器(S 代表尖峰)和(R 代表速率)。因此,为了比较和对比尖峰网络和速率网络之间的异同,我们可以比较解码器和,因为所有其他参数都匹配(图1)。此外,我们可以比较每个网络生成的时间特征集或神经基础,这些特征由过滤后的突触后电流和 表示。


FORCE技术以前用于训练基于速率的双曲正切网络[6]和各种尖峰神经网络[18]。FORCE训练使用递归最小二乘法(RLS)监督学习方法[6,25]对学习的解码器进行在线更新,并更新:





和初始化:




其中 是正则化参数或学习率的倒数,是零矩阵。RLS 最小化了目标动力学和网络输出动力学之间的均方误差。为了防止大权重(解码器),RLS结合了Tikhonov正则化[26\u201228],由脊参数控制。岭参数影响正则化,并且是学习率的倒数。最初,网络在解码器设置为零的情况下运行,允许在激活 RLS 以更新解码器之前生成丰富的神经动力学。如果网络可以在没有监督的情况下继续显示目标动态(RLS 关闭),则认为训练成功。有关更多详细信息,请参阅材料和方法中的 FORCE 训练部分。


FORCE 可以训练 LIF 和参数匹配速率网络

为了证明尖峰和LIF匹配的速率网络在使用FORCE方法进行训练时具有可比性,我们训练了多个网络来学习各种动态系统任务,并比较了跨尖峰和速率网络的神经动力学(图3A)。这些任务包括一系列具有不同维度和复杂性的振荡器问题、随机踢干草叉输入输出任务以及混乱的洛伦兹系统。我们重点关注三种主要类型的振荡器监督器:简单正弦曲线、高维傅里叶监督器和具有长周期性的欢乐颂监督器。傅里叶监督器是由 n 个频率为 的正弦波组成的 n 维监督器。欢乐颂监督由六个部分组成,脉冲间隔以模仿歌曲“欢乐颂”的音符。在某些情况下,我们还向 Ode to Joy 主管添加了高维时间信号 (HDTS)。HDTS由附加组件中的一系列脉冲组成,这些脉冲充当较长信号的时钟[18]。干草叉任务由干草叉范式组成,它有两个稳定的不动点,它接收随机踢作为输入,可以导致主管改变定点。有关主管的更多详细信息,请参阅材料和方法部分。


缩略图下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图3. FORCE 可以训练尖峰 LIF 和 LIF 匹配速率网络。


尖峰LIF和参数匹配LIF匹配速率网络在不同的任务上进行训练。网络输出和样本神经元放电率叠加。尖峰LIF值用实线绘制,LIF匹配速率值用虚线绘制,管理引擎用粗灰色线绘制。FORCE 培训可分为三个阶段:预学习、学习和后学习。在学习之前,网络动态是自发的混乱的。在学习过程中,网络输出被强制与目标输出相匹配,网络动力学得到相应的稳定。学习后,如果训练成功,网络输出和动力学将继续再现学习过程中稳定的输出和动力学,而无需任何进一步的权重更新。绿线表示解码器的欧几里得范数的变化。在所有三个学习阶段,尖峰网络和速率网络的神经动力学和网络输出高度相关。B 训练了 2000 个神经元的网络,使用 120 秒的训练重现了随机踢干草叉系统,并显示了 27 秒的测试。C 2000 个神经元的网络被无序初始化,然后训练以使用 5 秒的训练重现 1Hz 和 2Hz 正弦波的乘积,并显示 5 秒的测试。D-E2000 个神经元的网络被混乱地初始化,然后训练以再现贝多芬歌曲《欢乐颂》的第一小节。第一小节中的 5 个音符中的每一个都被转换为 5 维目标信号的一个分量。四分音符由 2Hz 正弦波的正部分表示,二分音符由 1Hz 正弦波的正部分表示。训练包括 80 秒或 20 个杠重复,而显示的测试包括 4 秒或 1 次重复。F–G5000 个神经元的网络被随机初始化为混沌,然后训练以使用参数 、 和 重现洛伦兹系统的全局动态。为了训练网络,使用了 200 个 Lorenz 目标轨迹,然后显示 200 个测试输出。Lorenz 系统的 3 个组件中的每一个都用于训练 3 维网络输出的一个组件。


https://doi.org/10.1371/journal.pcbi.1013224.g003


在初始自发活动阶段,两种网络类型在其动态中都表现出不规则的异步活动,反映了混沌状态。然而,在学习过程中,神经动力学迅速收敛,并在两种网络类型之间变得高度相关(图3A)。这种收敛与解码器的快速调整同时发生,导致解码输出快速匹配目标监控器。解码器的这些快速更新的幅度在尖峰网络和速率网络之间也高度相关(图3A)。一旦解码器和动力学稳定下来,就可以关闭 RLS 学习算法。如果学习过程成功且目标动态不混乱,则生成的学习网络动力学显示速率和尖峰网络之间存在高度相关性(图3A)。这种模式适用于各种周期性监督器,包括更复杂的振荡器(图3C)和更高维的周期性信号,例如“欢乐颂”(图3D)中的信号[18]。总的来说,我们发现,只要尖峰网络和速率网络具有共享的驱动输入电流,它们就会表现出高度相关的神经基元,甚至对随机初始化的解码器显示出相关的读出信号(S3图)。


用FORCE训练的速率和尖峰网络动力学之间的相关性不仅限于周期性函数。我们还证明,这两种类型的网络都可以学习具有输入的动态系统,例如干草叉系统(图3B)和混沌系统,如洛伦兹系统(图3F-3G)。对于干草叉系统,在训练期间和训练后,两种网络动力学之间存在高度相关性。相比之下,对于洛伦兹系统,我们在训练过程中观察到高度相关性,但在关闭RLS后,两个网络的神经动力学出现了分歧,这从神经电流的差异中可以看出。这种分歧是由于洛伦兹系统的混乱性造成的。尽管存在这种差异,但网络继续产生质量相似的神经动力学。输出动态也在网络之间和与目标主管定性匹配,两个网络产生的帐篷图与目标Lorenz系统的预期一致[29](图3F-3G)。


学习的权重可在LIF和参数匹配速率网络之间互换,以降低学习速率

在证明尖峰LIF和LIF匹配速率网络都可以学习相似的任务并表现出相似的神经动力学之后,我们研究了网络之间的相关性在什么参数状态下保持,以及相关动态是否反映在它们的解码器与?特别是,是否可以对尖峰网络和相应的发射速率网络使用相同的学习权重?我们在一系列任务上训练每种网络类型,扫描参数空间,并比较了不同网络类型解码器的相关性。G和Q参数在[0,0.2]和[2,30]范围内进行选择,以便将网络初始化为仍然可学习的混沌状态(S1图)。


我们观察到,解码器之间的相关性依赖于两个网络是否成功学习了任务,并且取决于学习率。具体来说,对于大约或更慢的慢学习率(等效于高正则化),我们发现速率网络的学习解码器和尖峰网络的学习解码器之间存在高度相关性(见图 4)。这种相关性足够强,以至于在许多情况下,解码器可以在网络类型之间互换,并且仍然使网络保留重现目标动态的能力,而无需进一步训练。由于我们还发现,在稳定输入电流的情况下,尖峰产生的碱基和速率网络高度相关(S3图)。这意味着,当尖峰网络动力学被输入电流稳定时,就像 FORCE 中的反馈电流一样,触发速率模型有效地描述了尖峰网络的行为。


thumbnailDownload:

PPTPowerPoint slide

PNGlarger image

TIFForiginal image

Fig 4. FORCE training with slow learning rates leads to strongly correlated and swapable decoders across spiking LIF and LIF-matched rate networks.


A–C Networks of 2000 neurons were trained on different supervisors over a grid of points in the (Q,G) parameter space for both spiking LIF and LIF-matched rate networks. The learning rates used were: , , and for the pitchfork, Ode to Joy, and oscillator respectively. Each set of heatmaps from top to bottom are: the L2 testing error for the spiking networks, the L2 testing error for the firing rate networks, and the Pearson correlation between the learned decoders of the spiking and rate networks. The stars indicate the most correlated pair of networks with both networks L2 error below a threshold of , which were used in remaining panels. D–F Sample overlaid network outputs (black), sample neuron firing rates (blue), and target supervisor (grey) for both the spiking (solid) and rate (dotted) networks. G–I Sample output and neuron dynamics for swapped decoders. The top plots are the output and neuron dynamics for the LIF network with the trained firing rate deocder. The bottom plots are the output and neuron dynamics for the firing rate network with the trained LIF deocder. J–L Scatter plot of LIF decoder versus firing rate decoder with a linear fit.


https://doi.org/10.1371/journal.pcbi.1013224.g004


The correlation was also robust to different supervisors (Fig 4A–4C) such as the pitchfork, Ode to Joy, and sinusoidal signals with slow learning rates for both networks across a grid of (Q,G) values. Subsequently, we selected the (Q,G) point that yielded the highest Pearson correlation coefficient between the learned decoders and (Fig 4D–4F). We found a high degree of correlation across the learned neural dynamics, as well as a strong correlation across the decoders ( and 0.74 for pitchfork, Ode to Joy, and 5 Hz sine supervisors, respectively). In addition, we considered faster supervisors and training with very short training times (S2 Fig).


Further, we exchanged the decoders between the network types, running the spiking network with the firing rate decoder and the rate network with the spiking decoder (Fig 4G–4I). The resulting output dynamics and neural dynamics for the networks with swapped decoders were qualitatively similar to those of the original trained networks. Additionally, we observed a slight time dilation or contraction in the output dynamics after swapping decoders, stemming from subtle differences in the time scales of the firing rate approximation.


When the learning rate was fast (), we observed a diminished correlation between and (Fig 5). Nevertheless, we noted that the area of convergence in the (Q,G) hyperparameter space tended to be larger and achieving lower testing errors for the rate network. Across a grid of (Q,G) values, we simulated the pitchfork, Ode to Joy, and sinusoidal signals for both networks and computed the Pearson correlation coefficient across the learned decoders (Fig 5A–5C). Subsequently, we plotted the learned network outputs and neural dynamics for the (Q,G) point with the highest cross-network decoder correlation , along with the linear regression between and .


thumbnailDownload:

PPTPowerPoint slide

PNGlarger image

TIFForiginal image

Fig 5. FORCE training with fast learning rates reduces decoder correlation and swappability.


A–C Row balanced networks of 2000 neurons were train on a supervisors over a grid of points in the (Q,G) parameter space for both LIF and LIF-matched rate networks. The learning rates used were: , , and for the pitchfork, Ode to Joy, and oscillator respectively. Each set of heatmaps from top to bottom are: the L2 testing error for the LIF networks, the L2 testing error for the rate networks, and the Pearson correlation between the learned decoders of the spiking and rate networks. The stars indicate the most correlated pair of networks with both networks L2 error below a threshold of , which were used in remaining panels. D–F Sample overlaid network outputs (black), sample neuron firing rates (blue), and target supervisor (grey) for both the spiking (solid) and rate (dotted) networks. G–I Sample output and neuron dynamics for swapped decoders. The top plots are the output and neuron dynamics for the LIF network with the trained firing rate deocder. The bottom plots are the output and neuron dynamics for the firing rate network with the trained LIF deocder. J–L Scatter plot of LIF decoder versus firing rate decoder with a linear fit.


https://doi.org/10.1371/journal.pcbi.1013224.g005


When the learning rate was high, we found that decoders could not be fully interchanged between spiking and rate networks (Fig 5G–5I). However, in some cases, the swapped decoders still allowed the networks to reproduce aspects of the target dynamics. Notably, most rate networks using decoders trained in the spiking LIF network performed well (Fig 5E). This one-sided interoperability suggests that the FORCE-learned spiking decoder effectively employs a “noisy" firing rate encoding scheme [4, 12]. It also indicates that the decoder learned for the spiking network is more robust, as it generalizes across network types.


Faster learning improves performance in LIF-matched rate networks but not spiking LIF networks

In the fast learning regime, the divergence of the cross-network decoders suggests that the two networks may be learning different weight structures. To further investigate this, we examined the testing errors and decoder correlations across a grid of (Q,G) values and for different network sizes (Fig 6). We considered the Ode to Joy, Fourier, and Sinusoidal tasks across a (Q,G) grid with four distinct learning rates, ranging from slow to fast .


thumbnailDownload:

PPTPowerPoint slide

PNGlarger image

TIFForiginal image

Fig 6. Fast learning improves performance of LIF-match rate but not spiking LIF networks.


A Networks of 2000 neurons were train on the Ode to Joy, Fourier basis, and sinusoidal tasks over a grid of points in the (Q,G) hyperparameter space with 4 different learning rates for both spiking and rate networks. Within each sub-panel, in order from left to right, we plotted the testing error for the spiking network, the rate network, and the cross network decoder correlation . B For the 5 Hz sinusoidal oscillator task and (Q,G) hyperparameter point (20,0.125), we trained 21 repetitions of randomly initialized networks with sizes in the range for 4 different learning rates for both the spiking (B.I) and rate model (B.II). Each blue point represents a repetition and each black point the mean. The blue lines indicate the linear regression fit with slope and intercepts indicated. C Mean Pearson correlation coefficient of decoders across networks for simulations in B. The shaded area indicates the corrected sampled standard deviation.


https://doi.org/10.1371/journal.pcbi.1013224.g006


As the learning rate increased, we found that the area of convergence (Fig 6A) and minimal error achieved (Table 2) for the spiking networks were largely unaffected. In contrast, for the LIF-matched rate networks, increasing the learning rate tended to increase the area of convergence (Fig 6A) and decrease the minimal error (Table 3). In the Ode to Joy tasks, higher learning rates () resulted in points of high testing error and a decreased area of convergence, suggesting that the FORCE weight updates were unstable [6]. This effect was particularly prominent in higher-dimensional tasks, likely due to higher-dimensional decoder updates and increased feedback from the supervisor, as each readout dimension had its own column in the encoder . As a result, each update step had a greater impact on the network in higher-dimensional supervisors, leading to increased instability in faster learning regimes.


thumbnailDownload:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

表 2. 傅里叶 LIF 网络、带 HDTS 的欢乐颂和 5 Hz 正弦振荡器在 (Q,G) 网格上实现的最小误差。

https://doi.org/10.1371/journal.pcbi.1013224.t002


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

表 3. 傅里叶上的LIF匹配速率网络、HDTS的欢乐颂和5 Hz正弦振荡器在(Q,G)网格上实现的最小误差。

https://doi.org/10.1371/journal.pcbi.1013224.t003


尖峰网络和速率网络之间学习速率依赖性的差异表明,解码器以不同的方式优化以利用它们各自的神经动力学。我们通过将误差缩放视为四种不同学习率下 5 Hz 正弦任务的网络大小的函数来进一步研究这一点(图 6)。对于具有 N 个神经元的网络,高效的尖峰网络预计将以 扩展,而具有不精确尖峰时间的放电率编码方案将以 N−1/2 [12, 30]。


为了进一步研究误差缩放,我们针对每种网络类型、大小和学习率训练了21个具有不同随机连接的网络(图6B)。然后,我们计算了对数-对数图的最佳拟合线,以确定比例因子,使均方根误差 (RMSE) 满足 。对于尖峰LIF网络(图6B.I),我们发现学习率对线性拟合的缩放因子或截距没有显著影响。在所有学习率中,缩放因子约为–0.5,当与网络中的尖峰时间变异性配对时(图7),表明触发速率编码方案具有噪声。在发射速率网络(图6B.II)中,在学习速率范围内,缩放因子在 的范围内保持大致恒定,表现出比尖峰LIF网络更高的编码效率。


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图7. 在均方误差分解中,方差在LIF尖峰网络中占主导地位,而偏置在LIF匹配速率网络中占主导地位。


答:对于 5 Hz 正弦振荡器任务,我们在 (Q,G) 超参数空间中的点网格上训练网络,LIF 和 LIF 匹配速率网络具有 4 种不同的学习率。对于 (Q,G) 空间中的每个点,我们模拟了训练的网络重复 100 (20s) 正弦输出,然后计算网络输出的交叉跟踪偏差和方差。每个子面板中的热图列从左到右依次为:时间平均偏差平方、时间平均方差以及方差与偏差平方的比例。左侧面板和右侧面板分别包含尖峰网络模拟和速率网络的绘制值。B-C对于 (Q,G) 网格中的选定点(由 A 中的星表示),使用 LIF 和速率神经元模型模拟相应的训练网络,以实现 100 (20s) 重复 5 Hz 正弦任务的慢速和快速学习率。对于随机选择的 5 个神经元,记录了尖峰网络的尖峰时间 (B) 和两个网络的过滤突触后电流 (C)。为了抵消输出时间漂移,网络输出的每次重复都与监控器的第一个峰值进行时间对齐。B 每个峰值时间都用一个点表示,其中颜色表示任务每次重复中峰值时间的顺序,表明它们的高度可变性。C LIF 和速率网络的突触后滤波器,其中阴影区域表示两者的校正样本标准偏差。请注意,还显示了费率网络的偏差。


https://doi.org/10.1371/journal.pcbi.1013224.g007


此外,增加学习率会降低对数-对数线性拟合的y截距,这意味着随着网络规模的增加,更高的学习率可以增强测试误差的减少。我们还计算了尖峰和速率网络之间的解码器相关性(图6C)。随着网络规模的增加,跨网络解码器相关性收敛到一个取决于学习率的值,学习速度越慢,解码器相关性越高。


尖峰网络误差源于方差,速率网络保持稳定

图6B.I中的缩放因子表明,尖峰网络使用具有嘈杂尖峰时间的发射速率编码方案。这意味着同一目标输出信号的多次重复中,LIF网络的尖峰时间具有可测量的可测量变化。相反,由于速率模型代表理论发射率,因此我们预计发射速率网络的神经基础不受尖峰时间噪声的影响,因此,在重复试验中的变化较小。


为了进一步研究这一点,我们模拟了在具有不同学习率(图7A)的(Q,G)网格上训练的5 Hz正弦波网络,对主管的100次重复(20s)。然后,我们计算了试验之间的时间平均偏差和方差。由于目标和学习正弦振荡器的频率存在细微差异,因此网络和目标输出之间存在明显的相移,随着时间的推移变得更加明显(图7A)。为了解决这个问题,我们对网络输出的每次重复进行时间对齐,以便试验中正弦振荡器的峰值一致。为了比较每个网络内的方差和偏差,我们对偏差进行了平方,结果将均方误差分解为偏差的平方、方差和取决于噪声概率分布的交叉项[30]。


We then computed the proportion of the variance relative to the sum of the variance and bias squared, to determine which dominated the network testing error. In the spiking network, we found that the learning rate had little effect on either bias or variance, neither decreasing the minimal values achieved (Table 4) nor affecting the hyper-parameter space where good values were achieved (Fig 7A). Additionally, in all cases where the networks successfully learned the target dynamics, the bias squared was dominated by the variance (Fig 7A), indicating the primary source of testing error to be variance across trials.


thumbnailDownload:

PPTPowerPoint slide

PNGlarger image

TIFForiginal image

Table 4. Minimal squared bias and variance achieved over (Q,G) grid for LIF and LIF-matched firing-rate network on 5 Hz sinusoidal oscillator. The minimal variance was only computed over (Q,G) points that had a corresponding bias squared less than 1e-2.

https://doi.org/10.1371/journal.pcbi.1013224.t004


In contrast, the firing rate networks showed a dependence on the learning rate, and the bias squared dominated the variance in all cases where the networks successfully learned the target dynamics (Fig 7A). We found that in the rate networks, faster learning rates led to both the bias and variance achieving good values over a larger area of the (Q,G) hyperparameter space (Fig 7A) and achieving a lower best-case value (Table 4).


To understand the difference in variance between the spiking and rate network outputs, we analyzed the neural basis generated by each network for an example network (Fig 7B-C) across repetitions of the target output, both at a fast learning rate () and a slow learning rate (). For the selected networks, we recorded the postsynaptic currents of the neurons in both network types, as well as the spike times for the spiking network. We then time-aligned the postsynaptic currents and spike times for each repetition of the output to create the raster plots in Fig 7B and filtered postsynaptic current plots in Fig 7C.


The spike rasters demonstrated that for both fast and slow learning rates, the inter-trial spike times for each neuron were highly varied but clustered around an average spike time. This variability in spike times resulted in a highly varied filtered postsynaptic current in the spiking networks (Fig 7C), which consequentially led to high variance in the network’s output. In contrast, the firing rate networks exhibited highly reproducible postsynaptic currents for both slow and fast learning rates, allowing them to produce network outputs with low cross-trial variance. Averaging the postsynaptic current over trials, we found that spiking and rate networks had similar mean neural dynamics, although the mean spiking postsynaptic currents showed some finer structure due to the clustering of spike times.


In some neurons, the variance around the mean spike times was low enough to prevent significant overlap in subsequent spike times within a repetition of the target signal. This resulted in peaks at the mean firing times and troughs in between. These dynamics are not captured in the instantaneous firing rate model, since the theoretical firing rate depends only on the input current, whereas the peaks in firing result from a correlation in the neuron states across trials. This can be better understood by noting that the firing rate networks use a theoretical instantaneous firing rate while the average postsynaptic current over trials can be understood as the postsynaptic current due to a firing rate average over trials (see [4] or 1.5 of [31] for a discussion of types of firing rate).


Given the difference in variability between the spiking and rate bases, we investigated whether there was a difference in the dynamics of the spiking and rate decoders during the learning phases of FORCE. The FORCE algorithm assumes that the output error is kept small so that the feedback signal is close to the target signal, stabilizing the learning network basis. However, we found that even if the feedback output current to the spiking neural networks is stable, the spiking neural basis has high cross-trial variability. This could lead to instability and convergence issues when using the FORCE algorithm for training a spiking neural network.


To investigate this, we recorded a time series for both a spiking and rate network decoders during learning for the 5 Hz sinusoidal signal at a successfully trained point in the (Q,G) grid (Fig 8). We observed that during training, the firing rate decoders quickly converged as the training error of the network decreased. Conversely, the spiking network decoders failed to stabilize during training and continued to drift randomly even after the network had learned the target dynamics (Fig 8). This decoder instability was accompanied by a more varied testing error which decreased to a point and then continued fluctuating, likely due to the variability of the spiking basis as mentioned. Furthermore, in the fast learning regimes, we often observed that the spiking decoders would destabilize and their size would spike, resulting in better performance with less training (Fig 8).


thumbnail下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

图8. 经过 FORCE 训练的尖峰解码器无法稳定以进行快速学习。


在 5 Hz 正弦上训练 10 秒的尖峰 LIF 和 LIF 匹配速率网络的时间序列数据。A 采样解码器元素、B 解码器的欧几里得范数、C 网络解码器之间的皮尔逊相关性和 D 对数瞬时误差 ()。


https://doi.org/10.1371/journal.pcbi.1013224.g008


我们还观察到,训练期间尖峰解码器和速率解码器之间的相关性最初达到峰值,然后随着时间的推移而降低(图8)。峰值相关性和随后的下降都取决于学习率;学习速度较慢,导致峰值相关性增加和下降速度较慢。这种下降可能是由于尖峰解码器的不稳定性,这些解码器在训练过程中继续漂移。


较慢的学习充当主成分的低通滤波器

回想一下,学习率与脊 (Tikhonov) 正则化参数成反比。调整(或等效地)对 FORCE 学习的解码器有两个主要影响:1) 增加正则化充当神经基础方差的低通滤波器,以及 2) 增加正则化会降低解码器向量的大小。


第一种效应导致尖峰网络和速率网络学习的解码器之间的相似性更大。这是因为速率网络有效地充当尖峰网络的低通滤波版本。第二种影响很重要,因为降低解码器幅度可以减少读数中试验间变异性的影响。在 FORCE 中,读数被反馈到储液器中,因此方差引起的误差会破坏神经基础的稳定性。这在训练期间尤其成问题,因为 FORCE 更新规则假设一阶误差动态。当这种假设被打破时,解码器更新就会变得不那么可靠。这两种效应共同有助于解释为什么较慢的学习率会在尖峰和速率解码器之间产生更高的相关性。首先,更强的正则化通过滤除高频(低解释功率)分量直接对齐两个解码器。其次,通过稳定针对试验间波动的尖峰基础,较慢的学习可以促进跨网络类型更一致的解码器收敛。


要查看第一个效应,让我们表示神经基函数的向量,并设 为目标信号。FORCE 算法的目标是用读数近似 x(t):



(7)

解码器是通过最小化正则化最小二乘损失来学习的:



(8)

在时间间隔 [0,T] 内。尽管 FORCE 在学习过程中执行影响神经基础的在线更新,但我们在这里考虑离线(固定基础)解决方案。最佳解码器是:



(9)

逆内部的矩阵是对称的正半定矩阵,可以分解为:



(10)

其中 U 包含正交特征向量,D 是特征值的对角矩阵,按降序排序。定义为变换后的正交基。那么最佳解码器就变成了:



(11)

近似值由下式给出:



(12)

其中内积由下式定义:



(13)

由此,我们看到增加(或减少)会减少组件 k 的贡献n(t) 与小 Dn,有效抑制低方差方向。


为了直观地理解基代表什么,我们考虑离散情况,其中基元不是函数,而是时间样本的向量。假设我们使用时间样本进行近似,并假设平均值为零:。然后对应于样本矩阵的第n个主成分[32]。虽然这只是一个近似值,但我们可以解释 kn(t) 捕获神经基础中的第 n 个最大方差方向。


鉴于在稳定输入下,尖峰和速率基在经验上高度相关(S3图),我们预计kn(t) 与大 Dn在网络类型之间也更相关。这一点得到了经验证实(S4图)。因此,增加减少了对高阶主成分(D 较小的主成分)的依赖n——并促进尖峰和速率解码器之间的一致性。鉴于尖峰基中存在的高变异性(图7),我们还预计其正交分解的高阶分量主要反映噪声而不是有意义的信号结构。


要查看第二种效果,假设是部分随机的,建模为:



(14)

其中 是关于平均值的随机波动,由一系列随机变量描述,这些变量在时间上使用平均向量和协方差矩阵进行参数化。基的预期读数为:



(15)

和方差:



(16)

这表明我们可以通过减小解码器的幅度来减少读出中随时间相关的方差。重要的是,增加正则化(或等效地降低学习率)自然会导致解码器幅度变小。这对 FORCE 框架具有重大影响,其中读数被反馈到储层中。如果此反馈包含过多的可变性或误差,则可能会破坏基础的稳定性并降低网络性能。在训练过程中,这个问题更加明显:由于 FORCE 依赖于在线更新误差的一阶近似,因此高可变性可能导致学习不准确,并且无法收敛到稳定的解码器权重。


讨论

在这项工作中,我们试图了解使用 FORCE 技术训练的基于尖峰和发射速率的神经网络之间的差异。识别这些差异有助于改进用于工程任务(神经形态计算)和生物尖峰神经网络中建模学习的尖峰神经网络学习技术。此外,了解在使用基于速率的模型与基于尖峰的模型时保留或丢失哪些信息对于发展神经计算理论至关重要。重要的是,我们建议使用 FORCE 技术训练的尖峰网络由于尖峰时间的可变性而学会利用近似速率编码方案,我们预测这一结果将扩展到其他基于最小二乘的优化技术,用于训练不以某种方式稳定尖峰时间的尖峰神经网络。此外,我们发现,当使用更快的学习率时,速率网络会表现出显着的改善,而尖峰网络则没有表现出任何改善,或者更糟糕的是,不稳定。


此外,尽管当两个网络成功学习目标动态时,尖峰网络和速率网络中的动态总是相关的,但学习的解码器权重之间的相关性取决于训练中使用的学习率。我们发现,当解码器相关(学习缓慢)时,我们可以跨网络交换学习到的解码器并保留学习到的输出动态。当解码器的相关性较低(快速学习)时,发射速率网络仍然可以与学习到的尖峰解码器一起运行,但反之亦然。我们还发现,与相应的尖峰网络相比,发射速率网络能够实现更低的测试误差。这些发现表明,尽管两个网络在学习成功时都执行了相关的神经计算,但速率网络实现了更精细的解决方案,而这些解决方案无法在尖峰网络中工作。此外,由于我们能够在不损失性能的情况下将训练好的尖峰网络转换为相应的速率网络,因此尖峰网络用于执行每项任务的信息在很大程度上被降低速率模型捕获。这表明尖峰网络使用基于发射速率的编码方案,其中用于解码任务的信息由发射速率携带。


为了进一步了解尖峰网络和速率网络如何利用神经碱基对信息进行编码的差异,我们研究了误差缩放作为网络大小的函数。误差和网络大小之间的缩放关系提供了对神经基元利用效率的洞察,并可以建议神经编码方案。对于一个完全有效的编码方案,我们期望误差会像其中 N 是网络大小一样缩放 [12, 30]。或者,在使用速率代码的随机噪声尖峰基中,误差预计将缩放为 N−1/2 [12, 30]。我们发现大约 N 的误差缩放−1/2在尖峰网络中,大约 N−3/4在跨学习率的发射率网络中。这表明尖峰网络正在使用噪声速率编码,并表明发射速率网络正在更有效地使用神经基础。我们还发现,随着学习率的提高,尖峰网络的性能基本上不受影响,但触发率网络能够在所有网络大小下实现更低的误差。此外,我们发现时间平均交叉试验方差在尖峰网络中时间平均交叉试验偏差的平方中占主导地位。这意味着大部分尖峰输出误差来自尖峰神经基础的可变性。在加标基数和加标时间中发现的高交叉试验时间变异性证实了这一点。相反,在发射率网络中,时间平均交叉试验偏差平方主导时间平均交叉试验方差。这表明发射率网络中误差的限制来源是神经基础和解码器的表达能力。尖峰时间变异性的存在解释了我们之前发现的误差缩放[12,33]。 这表明这里的尖峰网络可能使用了一种更接近速率编码的方案,即 Denève 和 Machens 所说的泊松速率代码。


我们的发现的一个重要含义是,为了避免学习近似于LIF网络中交叉试验平均发射率的编码方案,可能需要稳定相对于所需学习任务的尖峰时间,或者使用不依赖于递归最小二乘法的学习过程,如FORCE方法。在不可靠的尖峰基础上,方差将主导输出误差,这意味着通过关注方差分量将最小化或最小二乘误差。在没有其他因素(例如种群水平相关性)的情况下,这将固有地导致一种近似于交叉试验发射率的编码方案。因此,减少方差以允许偏差主导误差将能够出现与交叉试验平均触发率不同的尖峰编码策略。我们怀疑,有可能通过分析证明,在对尖峰噪声的某些假设下,通过基于最小二乘的技术学习到的预期解码器将收敛到平均交叉试验发射率基础的最佳解码器。然而,还必须考虑基础内的人口层面的相关性。


我们还注意到,像在我们的研究中观察到的那样,跨试验变异性并不总是导致高度多样化的网络输出。FORCE训练的尖峰网络尖峰序列的变异性问题之前已经讨论过[34]。解决变异性问题的另一种方法是使用快速、强大的神经元间连接来稳定神经群中的交叉试验放电率[13\u201215]。该方法依靠神经元相互作用来诱导尖峰时间的交叉试验变化之间的相关性,从而有效地抵消了对群体水平放电率的扰动[34]。因此,此类网络可以表现出高度变化的单个神经元尖峰时间,而不会破坏种群水平动态的整体稳定性,从而导致一致的跨试验网络输出。在当前的 FORCE 框架中,所有神经元连接(包括抑制性和兴奋性)仅由固定随机储液器权重 ()、固定随机反馈权重 () 和预定义的网络读数 () 决定。然而,可以纳入或设计局部学习规则[19,20],以适应性地塑造储层和反馈权重,从而在FORCE框架内引入种群水平的稳定性。还有一些工作扩展了Denève和Machens开发的网络,并将其用作基于RLS或FORCE的更新方案中的储层网络[35]。


There are several possible extensions and notable limitations to this work. The techniques we applied to compare the spiking and corresponding firing rate networks were relatively simple; primarily looking at swap-ability and cross-network correlations. It would be beneficial to use more robust techniques for quantifying the differences in the network types. Due to the increased interest in understanding the largely “black-box" function of ANNs, there have been several attempts to derive techniques to understand them, which could possibly be applied here. For example, work on creating low-dimensional representations of the error landscape for neural networks [36], or on computing the Lyapunov exponents for RNNs [37, 38]. Additionally, reservoir techniques have a highly constrained network connectivity and weight structure due to only updating a small subset of the network weights. It would also be interesting to see if our results extend to other spiking neural network training techniques such as full-FORCE [7], E-prop [39], and surrogate gradient descent methods [16, 40, 41].


We suspect that gradient-based methods may yield different results, as they have access to more complex error targets. However, training corresponding firing-rate networks using these methods presents a challenge, given that the gradient of the firing-rate model diverges (exploding gradient problem) as the firing rate approaches zero. Nevertheless, a viable approach could be to first train a spiking LIF network using a gradient-based method and then convert it into an corresponding firing-rate model. We expect that similar results will be found for full-FORCE due to its similarity to FORCE, despite full-FORCE being designed to create a more stable basis. For example, in full-FORCE based spiking training techniques [42], there was considerable variability within the spike times (raster plots Fig. 4b in [42]). We also expect similar results to hold for FORCE-trained, classification-based tasks, as effective classification requires input currents to drive network activity, much like the tasks examined here. In the work by Nicola and Clopath [18], a high degree of variability was observed in neural voltages for the same inputs—both near and far from the decision boundary. This finding aligns with our observations in this study.


Materials and methods

Leaky integrate-and-fire networks

To analyze trained spiking networks with a firing rate match, we used the Leaky-Integrate and Fire (LIF) neuron model with a refractory period:




(17)

其中子索引 i 表示网络中的特定神经元。膜电位的亚阈值动力学由 (17) 控制。一旦超过阈值,神经元就会立即设置为复位电压,然后保持在该电压的不应期。达到的时间对应于 LIF 神经元中尖峰的触发。该参数是膜时间常数,它决定了 LIF 神经元对亚阈值事件的记忆。较大会导致神经元中亚阈值动力学的“存储”和过滤时间更长。然后使用双指数突触过滤器过滤尖峰事件:



(18)


(19)

其中 是狄拉克增量函数。该参数是突触上升时间和突触衰减时间,它们控制突触后电流脉冲上升和衰减的速度。神经元参数如表1所示。神经元的电流是背景偏置电流 I 的总和偏见,我们认为它是流变碱基 () 和突触输入电流:



(20)

其中 是突触连接矩阵。请注意,单位电阻被吸收到输入电流中。突触连接矩阵由静态部分和学习部分组成,如下所示:



(21)

矩阵的静态部分通过递归连接强度参数 G 缩放稀疏随机矩阵进行缩放。对于我们的研究,我们从平均值为 0 且方差为 的正态分布生成,其中 p 是矩阵的稀疏性,N 是网络中神经元的数量。这使权重与连接数的平方根的倒数成正比[18]。为了在储层连接中引入稀疏性,每个权重被随机设置为零,概率为 1-p。此外,矩阵中每一行的样本均值被明确设置为0,这促进了神经放电率的均匀性[18]。这是通过首先从正态分布生成具有所需稀疏度水平的随机矩阵,然后定义:



(22)

连通性矩阵的学习部分由恒定标量强度参数 Q、静态编码器和学习解码器组成,其中 M 是网络输出的维度。通过引入Q和G参数,我们可以控制网络的宏观动态;要么通过增加(减少)G来诱导更多(更少)的混乱,要么通过增加(减少)Q在神经放电率中产生更多(更少)结构化异质性[22,23]。 编码器的组件是从 M 维单位正方形上的均匀分布绘制的。学习到的线性解码器的主要任务是解码神经动力学以产生网络输出:



(23)

还可以与编码器配合使用,通过反馈连接稳定网络动态。


发射速率网络

如果当前的 I我相对于 是恒定的或变化非常缓慢的,在 (17) 中,LIF 神经元的微分方程的解计算如下:



(24)

对于某些初始电压 v(0)。然后,到第一个尖峰的时间穗,可以计算为从复位电压达到阈值电压所需的时间,由下式给出:



(25)

该值加上不应期就是给定恒定电流下尖峰之间的时间。由于尖峰速率是尖峰之间时间的倒数,因此输入电流 I 的 LIF 神经元的放电速率我由以下方式给出:



(26)

其中 R(I我)通常称为神经元 i 的传递函数(或 f-I 曲线)。发射率 R(I我),然后用于将滤波后的尖峰序列近似为 [1]:




在突触比尖峰动力学慢得多或特定的尖峰时间对网络动力学不重要的假设下,这将是有效的[1]。


因此,对于 N 个泄漏整合和放电神经元的网络,放电率系统由以下因素决定:



(27)


(28)


(29)


(30)

触发速率连通性矩阵的定义类似于尖峰连通性矩阵的定义,唯一的区别是引入了速率网络解码器。当公式27-(30)中的所有参数都与其尖峰网络对应参数匹配时,系统(27)-(30)预测尖峰网络的发射速率的动态。


FORCE培训

FORCE 训练的主要目标是使用一个区间内的动力学样本,用网络输出近似一些目标动力系统。为此,FORCE 使用递归最小二乘法 (RLS) 技术来最小化平方误差损失函数:



(31)

其中 是一个标量正则化参数,它惩罚解码器的大值。RLS 算法的工作原理是动态减少网络输出和目标动态中的误差:



(32)

通过对解码器执行离散更新,在一系列时间步长上。时间步长 t 处的步长更新根据以下公式计算:




式中,是神经基的逆互相关加上正则化矩阵的离散近似:



(33)

解码器初始化为 和相关矩阵:



(34)

我们可以将参数视为 FORCE 算法的学习率 [6]。我们注意到,最小二乘形式化中的正则化参数是 RLS FORCE 框架中学习率的倒数。我们之所以做出这种区分,是因为在最小二乘框架中,优化发生在固定的时间间隔内,因此调整了 的幅度,但在 RLS 框架中,会影响每个时间步长的更新量。由于我们主要处理 RLS,因此我们将主要参考学习率,但偶尔会参考正则化,因为它们具有相关功能。


图3 方法

使用 FORCE 技术分别训练尖峰神经元网络及其参数匹配速率网络,以产生各种动力系统。对于所有模拟,在正向欧拉积分方案中使用了积分时间步长网络大小N、图稀疏度p、储层强度G、反馈强度Q、训练时间T火车、测试时间 T测试,RLS 更新间隔如表 5 所示。


缩略图下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

表 5. 图 3 的参数。

https://doi.org/10.1371/journal.pcbi.1013224.t005


图3所示的正弦导波器是单位振幅的5 Hz正弦振荡器。为了说明训练前的自发活动,在RLS训练开始前,网络运行了0.6s。然后,激活RLS1s,然后停用0.6s以测试网络。复振荡器(图3C)由1 Hz和2 Hz正弦振荡器的乘积产生。对于欢乐颂监督,使用了代表歌曲第一小节的 G、F、E、D 和 C 音符的 5 维信号。监控器的每个脉冲都是由 1 Hz 或 2 Hz 正弦波形的正部分产生的,分别代表歌曲中基于脉冲持续时间的二分音符或四分音符。在训练过程中,信号重复20次,总共80秒的模拟训练时间,然后测试信号的额外2次重复(8秒),最后一次重复(4秒)在图3D-3E中使用。


干草叉监督器是从干草叉范式生成的



对于时间 p(t) 中的某些扰动函数。该参数是一个时间常数,用于调整系统对 p(t) 引起的扰动的响应速度,正参数 r 控制未扰动系统 () 中稳定不动点的位置,这些不动点发生在 。参数 r 和 固定为 r = 1 且 。为了产生扰动 p(t),创建了一个随机的方形脉冲序列,其中脉冲之间的时间从 [0.1,0.5] 中均匀采样,脉冲长度从 [0.005,0.01] 中均匀采样,脉冲高度从标准差 2 和均值为零的正态分布中采样。


洛伦兹系统由以下方程生成:



(35)


(36)


(37)

使用参数 、 和 .除了图3F所示的类洛伦兹轨迹外,我们还计算了训练后的尖峰网络和速率网络的返回图。Lorenz映射的计算方法是首先使用长度为21个时间步长的窗口滤波器通过卷积对原始网络输出进行平滑处理,然后使用阶数为10000的SciPy argrelextrema [43]函数计算所得信号的局部最大值。然后通过绘制 vs 形成映射。


图4和图5方法。

干草叉、欢乐颂和正弦监督器的制作方式与图3中相同,此外,欢乐颂监督器还包括Nicola和Clopath2017[18]使用的高维时间信号(HDTS)。HDTS 由添加到监控器以增加其维度的一系列额外组件组成,充当时钟。这些组件通过驱动网络的子集到同步活动的集合中来帮助稳定网络,这有助于消除欢乐颂歌曲中重复音符子序列的歧义[18]。


为了产生 m 维 HDTS,我们将时间间隔 [0,T] 划分为 的 m 个子区间。HDTS 的第 n个分量在区间 I 中包含脉冲n.在这里,我们使用正弦波的正部分,产生附加分量:



(38)

对于 Ode to Joy 示例,使用了具有 16 个组件的 HDTS。


在区间 [0,T] 上,M 维监控器 x(t) 的 (Q,G) 网格中每个点的解码输出的测试误差由范数计算:



(39)

对于 (Q,G) 网格中每个点的 N 大小网络,M 维尖峰解码器和发射速率解码器之间的 Pearson 相关系数计算如下:



(40)

其中 是所有组件和维度的平均值。然后,对于每个监控器,我们选择尖峰网络和速率网络的测试误差都小于的最高(Q,G)点。对于得到的点(),用闪电速率解码器模拟尖峰网络,用尖峰解码器模拟闪电速率网络。网络大小N,稀疏性p,训练时间T火车、测试时间 T测试,每个管理引擎的RLS更新间隔如表6所示。


缩略图下载:

PPT的PowerPoint 幻灯片

巴布亚新几内亚大图

蒂夫原图

表 6. 图4和图5的训练参数。

https://doi.org/10.1371/journal.pcbi.1013224.t006


图6 方法

带有 HDTS 和正弦监督器的欢乐颂是如前所述构建的。傅里叶导波器由 9 个正弦波组成,频率均匀分布在 0.5 到 4.5 之间,每个波都充当其自己的导波器组成部分。整体傅里叶监督器由以下方式描述:



(41)

其中 xn是主管的组件,而 。


为了计算误差缩放和跨网络解码器相关性,在 5 Hz 正弦监控器上训练了 21 个不同的尖峰和速率网络,网络大小范围为 N = 100 至 N = 25600。每个网络都使用储层和反馈参数进行行平衡,并使用 进行训练并使用 进行测试。如前所述计算测试误差和跨网络解码器相关性。


图7 方法

对于 (Q,G) 网格上的每个点,在 5 Hz 正弦监督器上训练具有 2000 个神经元的尖峰和速率网络,进行 10 (2s) 次重复,然后测试 100 (20s) 次重复。20 秒间隔被分成 100 个均匀间隔的 0.2 秒间隔,每个间隔包含一次正弦监督器的重复。通过计算子区间中的最大值并滚动输出信号,使最大值出现在 t = 0.05s 的预期时间,每次重复都对时间进行时间对齐。对于尖峰网络,首先通过将信号与宽度为0.0250s的方窗函数卷积来平滑信号,然后计算最大值,然后对原始未平滑信号进行时间对齐。设 为 时间对齐重复和 n代表重复次数,偏差平方然后计算公式为:



(42)

方差计算如下:



(43)

方差比例为:



(44)

支持信息

FORCE 训练的 LIF 和 LIF 匹配速率网络的混沌状态。


显示 1/5: pcbi.1013224.s001.tiff


跳至图分享导航

抱歉,我们无法加载您的数据。

1 / 5



下载

无花果分享

S1 图。 FORCE 训练的 LIF 和 LIF 匹配速率网络的混沌状态。

A-B200 个 LIF 神经元及其相应的 LIF 匹配速率神经元网络的神经电流显示出储层强度参数 G>0 的混乱行为。C 速率网络中前两个神经元的相位画像模拟了 50 秒,显示了 G>0 的混乱行为。D 2000 个 LIF 和 LIF 匹配速率神经元的网络在参数网格上训练,并使用 和 。对于足够大的 G,两个网络都无法学习。


https://doi.org/10.1371/journal.pcbi.1013224.s001


(TIFF)


S2 图。 经过 FORCE 训练的网络在快速监督和短训练持续时间方面遇到了困难。

A 训练了 2000 个 LIF 和 LIF 匹配速率神经元的网络,以产生频率递增的正弦波。随着频率的增加,两个网络都表现出学习主管的能力下降。B 训练 2000 个 LIF 和 LIF 匹配速率神经元的网络以生成具有不同训练持续时间的 5 Hz 正弦波。当训练周期很短(仅包含主管的单个周期)时,两个网络都无法学习。


https://doi.org/10.1371/journal.pcbi.1013224.s002


(TIFF)


S3 图。 LIF 和 LIF 匹配的速率网络在驱动时表现出相关的神经碱基,但在没有输入的情况下是混乱的。

在有和没有驱动输入的情况下,模拟了 2000 个 LIF 和 LIF 匹配速率神经元的网络,在不同的储层强度 (G) 和反馈强度 (Q) 上进行 1 秒的模拟。在没有输入的情况下,两个网络都表现出混沌动态和低跨网络相关性。当驱动时,跨网络读数和神经碱基变得相关。A-B来自两个网络的样本读数和神经基元。C-F采样神经碱基和读数的跨网络相关性。


https://doi.org/10.1371/journal.pcbi.1013224.s003


(TIFF)


S4 图。 LIF 和 LIF 匹配速率网络具有高度相关的低阶原理成分。

2000 个 LIF 和 LIF 匹配速率网络的网络在 5 Hz 正弦监控器上使用 FORCE 训练 4 秒,学习率为 5e-6,储层强度 G = 0.1,反馈强度 Q = 15,对于 10 个不同的种子值。然后,我们绘制平均值:正交基元中的绝对相关性、LIF 特征值和速率特征值。阴影区域表示标准差。低阶正交基元具有更高的相关特征值,因此可以解释更多原始基的变异性。早期的基元在网络类型之间也高度相关。


https://doi.org/10.1371/journal.pcbi.1013224.s004


(TIFF)


S1 文本。 LIF 和 LIF 匹配的速率网络在驱动时表现出相关的神经碱基,但在没有输入的情况下是混乱的。

S3 的方法图


https://doi.org/10.1371/journal.pcbi.1013224.s005


(PDF格式)


引用

1.达扬 P,雅培 LF。理论神经科学:神经系统的计算和数学建模。麻省理工学院出版社;2005.

2.坎德尔 ER、施瓦茨 JH、杰塞尔 TM、西格尔鲍姆 SA、哈德斯佩斯 AJ。神经科学原理。第五版麦格劳希尔;2013.

3.阿德里安·埃德,佐特曼·感觉神经末梢产生的冲动:第二部分。单个终末器官的反应。生理学杂志 1926 年;61(2):151–71.PMID:16993780

查看文章考研/NCBI谷歌学术

4.Brette R. 尖峰哲学:基于速率的大脑理论与基于尖峰的大脑理论。前系统神经科学。2015;9:151.PMID:26617496

查看文章考研/NCBI谷歌学术

5.Jaeger H, Haas H. 利用非线性:预测无线通信中的混沌系统并节省能源。科学。2004;304(5667):78–80.PMID:15064413

查看文章考研/NCBI谷歌学术

6.Sussillo D,雅培 LF。从混沌神经网络生成连贯的活动模式。神经元。2009;63(4):544–57.PMID:19709635

查看文章考研/NCBI谷歌学术

7.德帕斯夸莱 B、奎瓦 CJ、拉詹 K、埃斯科拉 GS、雅培 LF。Full-FORCE:一种基于目标的循环网络训练方法。公共科学图书馆一号。2018;13(2):e0191527。PMID:29415041

查看文章考研/NCBI谷歌学术

8.Hochreiter S, Schmidhuber J. 长短期记忆。神经计算。1997;9(8):1735–80.PMID:9377276

查看文章考研/NCBI谷歌学术

9.Chen RTQ、Rubanova Y、Bettencourt J、Duvenaud DK。神经常微分方程。见:Bengio S、Wallach H、Larochelle H、Grauman K、Cesa-Bianchi N、Garnett R,编辑。神经信息处理系统的进展。柯兰联合公司;2018.

10.Goodfellow IJ、Bengio Y、Courville A. 深度学习。美国马萨诸塞州剑桥:麻省理工学院出版社;2016.

11.Eliasmith C, Anderson CH. 神经工程:神经生物学系统中的计算、表示和动力学。麻省理工学院出版社;2003.

12.Denève S, Machens CK. 高效的代码和平衡的网络。纳特神经科学。2016;19(3):375–82.PMID:26906504

查看文章考研/NCBI谷歌学术

13.Boerlin M、Machens CK、Denève S. 平衡尖峰网络中动态变量的预测编码。PLoS Comput, Biol. 2013;9(11):e1003258。PMID:24244113

查看文章考研/NCBI谷歌学术

14.Schwemmer MA,Fairhall AL,Denéve S,Shea-Brown ET。使用生物物理尖峰神经元构建精确计算网络。神经科学杂志。2015;35(28):10112–34.PMID:26180189

查看文章考研/NCBI谷歌学术

15.Boerlin M, Denève S. 基于 Spike 的人口编码和工作记忆。PLoS Comput, Biol. 2011;7(2):e1001080。PMID:21379319

查看文章考研/NCBI谷歌学术

16.Neftci EO、Mostafa H、Zenke F. 尖峰神经网络中的代理梯度学习:将基于梯度的优化的力量引入尖峰神经网络。IEEE 信号过程杂志 2019;36(6):51–63.

查看文章谷歌学术

17.佩雷斯-尼维斯 N、梁 VCH、德拉戈蒂 PL、古德曼 DFM。神经异质性促进了稳健的学习。纳特公社。2021;12(1):5791.PMID:34608134

查看文章考研/NCBI谷歌学术

18.Nicola W, Clopath C. 使用 FORCE 训练在尖峰神经网络中进行监督学习。纳特公社。2017;8(1):2208.PMID:29263361

查看文章考研/NCBI谷歌学术

19.Bourdoukan R、Barrett D、Deneve S、Machens CK. 学习基于尖峰的最佳表示。见:Pereira F、Burges CJ、Bottou L、Weinberger KQ,编辑。神经信息处理系统的进展。柯兰联合公司;2012.

20.Brendel W, Bourdoukan R, Vertechi P, Machens CK, Denève S. 学习逐个尖峰表示信号。公共科学图书馆计算生物学 2020 年;16(3):e1007692。PMID:32176682

查看文章考研/NCBI谷歌学术

21.鲁梅尔哈特 DE、辛顿 GE、威廉姆斯 RJ。通过反向传播错误来学习表示。自然界。1986;323(6088):533–6.

查看文章谷歌学术

22.Sompolinsky H、Crisanti A、Sommers H. 随机神经网络中的混沌。Phys Rev Lett. 1988 年;61(3):259–62.PMID:10039285

查看文章考研/NCBI谷歌学术

23.Mastrogiuseppe F, Ostojic S. 连接低秩循环神经网络中的连接性、动力学和计算。神经元。2018;99(3):609-623.e29。PMID:30057201

查看文章考研/NCBI谷歌学术

24.Harish O, Hansel D. 尖峰神经元回路中的异步速率混乱。PLoS Comput生物学 2015;11(7):e1004266。PMID:26230679

查看文章考研/NCBI谷歌学术

25.海金 SS. 神经网络和学习机器。第三版培生教育;2009.

26.威洛比 RA。解决不当问题(A. N. Tikhonov 和 V. Y. Arsenin)。暹罗修订版 1979 年;21(2):266–7.

查看文章谷歌学术

27.菲利普斯 DL。一种对某些第一类积分方程进行数值求解的技术。J ACM。1962;9(1):84–97.

查看文章谷歌学术

28.霍尔 AE,肯纳德 RW。岭回归:非正交问题的偏估计。技术指标。2000;42(1):80–6.

查看文章谷歌学术

29.非线性动力学和混沌:在物理、生物学、化学和工程学中的应用。第二版西景出版社;2015.

30.尼古拉 W,牛顿 TR,克洛帕斯 C.尖峰定时精度和尖峰发射可靠性对解码精度的影响。科学代表 2024;14(1):10536.PMID:38719897

查看文章考研/NCBI谷歌学术

31.Gerstner W,奇石乐 WM. 尖峰神经元模型。Cmabridge 大学出版社;2002.

32.哈斯蒂 T、蒂布希拉尼 R、弗里德曼 J.统计学习的要素。2 版。纽约州纽约:施普林格;2009.

33.Hahnloser RHR,Kozhevnikov AA,费 MS。超稀疏代码是鸣禽神经序列生成的基础。自然界。2002;419(6902):65–70.PMID:12214232

查看文章考研/NCBI谷歌学术

34.雅培 LF、德帕斯夸莱 B、梅梅海默 RM。构建尖峰模型神经元的功能网络。纳特神经科学。2016;19(3):350–5.PMID:26906501

查看文章考研/NCBI谷歌学术

35.塔尔迈尔 D、乌尔曼 M、卡彭 HJ、梅梅海默 RM。学习带有尖峰的通用计算。PLoS 计算生物学 2016 年;12(6):e1004895。PMID:27309381

查看文章考研/NCBI谷歌学术

36.Li H, Xu Z, Taylor G, Studer C, Goldstein T. 可视化神经网络的损失景观。见:Bengio S、Wallach H、Larochelle H、Grauman K、Cesa-Bianchi N、Garnett R,编辑。神经信息处理系统的进展。柯兰联合公司;2018.

37.沃格特 R、普埃尔玛·图泽尔 M、什利泽曼 E、拉乔伊 G.关于 RNN 的 lyapunov 指数:使用动力系统工具理解信息传播。前应用数学统计 2022;8。

查看文章谷歌学术

38.Engelken R、Wolf F、Abbott LF。混沌循环神经网络的李雅普诺夫谱。物理修订版 2023 年;5(4):043044.

查看文章谷歌学术

39.Bellec G、Scherr F、Subramoney A、Hajek E、Salaj D、Legenstein R 等。尖峰神经元循环网络学习困境的解决方案。纳特公社。2020;11(1):3625.PMID:32681001

查看文章考研/NCBI谷歌学术

40.佩雷斯-尼维斯 N,古德曼 DFM。稀疏尖峰梯度下降。见:神经信息处理系统的进展。2021.

41.Sourmpis C、Petersen C、Gerstner W、Bellec G. 试验匹配:使用数据约束的尖峰神经网络捕获变异性。见:Oh A、Naumann T、Globerson A、Saenko K、Hardt M、Levine S,编辑。神经信息处理系统的进展。柯兰联合公司;2023. 第 74787–98 页。

42.德帕斯夸莱 B,丘奇兰 MM,雅培 LF。使用放电速率动力学训练尖峰模型神经元的循环网络;2016. https://arxiv.org/abs/1601.07620

43.Virtanen P、Gommers R、Oliphant TE、Haberland M、Reddy T、Cournapeau D 等。SciPy 1.0:Python 中科学计算的基本算法。Nat 方法。2020;17(3):261–72.PMID:32015543

查看文章考研/NCBI谷歌学术

44.牛顿 TR. RateVsSpikeV1。2024. https://doi.org/10.5281/zenodo.13333935


阅读0
分享
写下您的评论吧