大脑带来的启发：深度神经网络优化中突触整合原理介绍

wrjc1hod · 发表于 2024-8-31 06:05:35

编辑 | 萝卜皮众所周知，大脑中的可塑性回路经过突触整合和突触强度的局部调节机制受到突触权重分布的影响。然而，迄今为止设计的大都数人工神经网络训练算法都忽略了刺激依赖性可塑性与局部学习信号的繁杂相互功效。在这儿，IBM 科研院的科研人员，提出了一种新的受生物学启发的人工和尖峰神经网络优化器，该优化器结合了在皮质树突中观察到的突触可塑性的关键原则：GRAPES（Group Responsibility for Adjusting the Propagation of Error Signals）。GRAPES 在网络的每一个节点上实现了与权重分布关联的误差信号调制。科研显示，这种受生物学启发的机制能够显着加强拥有前馈、卷积和循环架构的人工和尖峰网络的性能，它能够减轻劫难性遗忘，并且最适合专用硬件实现。总而言之，将神经生理学见解与设备智能相协调是加强神经网络性能的关键。该科研以「Introducing principles of synaptic integration in the optimization of deep neural networks」为题，于 2022 年 4 月 7 日发布在《Nature Communications》。

人工神经网络 (ANN) 在 1940 年代首次提出，做为哺乳动物大脑神经回路的简化计算模型。随着计算能力的进步，人工神经网络偏离了它们最初受到启发的神经生物学系统，并重新定位置于日前广泛应用中运用的计算技术的发展。在提出的用于训练多层神经网络的各样技术中，反向传播 (BP) 算法已被证明是一种有效的训练方法。尽管设备智能取得了令人瞩目的进步，但人工神经网络的潜能与大脑计算能力之间的差距仍有待缩小。人工神经网络的基本问题，如训练时间长、劫难性遗忘和没法利用日益增多的网络繁杂性，不仅需要处理人类大脑的能力，还需要加强平常运用设备的性能。例如，减少设备人应用程序中在线学习的训练时间针对保证设备人代理快速适应新环境并降低与训练关联的能源成本至关重要。已然提出了几种技术，例如批量归一化、层归一化和权重归一化，以加速 ANN 的训练。这些办法虽然成功地加强了收敛速度，但距离生物大脑的学习能力还差得很远。与哺乳动物的神经回路相比，人工神经网络在大脑方面的局限性很大程度上归因于其结构和动力学的大幅简化。对大脑功能至关重要的几种机制，包含突触整合和体重强度的局部调节，一般不在基于 BP 的人工神经网络训练中建模。克服这一限制可能是使人工网络的性能更接近动物智能的关键。突触整合是神经元在产生动作电位 (AP) 之前结合数千个突触前神经元接收到的尖峰序列的过程。轴突 AP 在细胞的轴突中被引出，做为对从细胞树突接收到的输入的响应，并充当神经元的整体输出信号。实验证据显示，最少在 CA1 细胞中，因为树突的活跃特性，来自区别突触前神经元的输入信号到达同一突触后细胞可能与非线性动力学相互功效。详细而言，当在树突分支中出现强去极化时，在该区域中诱发树突AP。树突状 AP 会加强产生它的兴奋性突触后电位（EPSP）总和的幅度，从而在树突状输入到达胞体之前放大树突状输入以诱发轴突 AP。树突尖峰的产生需要空间上连接到同一分支的足够多的突触前细胞在时间上以足够的突触强度活跃。因此呢，突触输入影响突触后神经元输出的能力取决于它们在树突树中的位置。神经元强大的计算能力被认为源于源自树突尖峰的繁杂非线性动力学。下图显示了这种机制，并表示了每一个突触前神经元的影响怎样还取决于经过其他突触前连接传递到同一突触后神经元的信号。因此呢，局部权重分布能够负责提高特定节点的输入信号。与大脑中的神经元类似，ANN 中的节点接收来自许多细胞的输入并产生单个输出。科研人员能够将人工节点的激活与轴突 AP 联系起来，但树突 AP 的机制并无严格地转化为点神经元的动力学。然而，树突尖峰受到树突分支内突触强度分布的剧烈影响。类似地，人工节点的非线性动力学受到进入一层节点的突触权重分布的影响。令人惊讶的是，在人工神经网络的平常训练办法中，缺乏思虑每一个节点权重分布的机制。

图示：生物和人工网络中的突触强度分布。（源自：论文）另外，大脑中的突触可塑性重点由局部信号驱动，例如邻近神经元的活动。突触之间的局部相互功效在调节学习过程中的体重变化中起着至关重要的功效。在这种状况下，异突触竞争机制准许经过限制连接到相同突触前或突触后神经元的突触的总强度来调节突触生长。这种现象出现在每一个神经元的突触之间的非线性竞争。受非线性突触整合和局部突触强度调节的生物学机制的启发，IBM 科研院和苏黎世大学的科研人员提出了 GRAPES（调节错误信号传播的组责任），这是一种用于 ANN 和 SNN 训练的新型优化器。GRAPES 依赖于节点重要性的新概念，该概念将网络中每一个节点的责任量化为层内局部权重分布的函数。

图示：调制因子的计算。（源自：论文）应用于基于梯度的优化算法，GRAPES 供给了一种简单有效的策略来动态调节每一个节点的误差信号并加强最关联参数的更新。与动量等优化器相比，该办法不需要存储先前过程的参数，避免了额外的内存损失。这个特性使得 GRAPES 在生物学上比基于动量的优化器更恰当，由于神经回路不可保存来自先前状态的大部分信息。科研人员在五个静态数据集（MNIST、CIFAR-十、CIFAR-100、Fashion MNIST 和 Extended MNIST）上运用 ANN 以及在时间速率编码的 MNIST 上运用 SNN 验证了该办法。她们成功地将 GRAPES 应用于监督学习的区别训练办法，即 BP、FA 和 DFA，以及区别的优化器，即 SGD、RMSprop 和 NAG。科研人员证明了所提出的基于权重的调制能够在 ANN 和 SNN 中带来更高的归类精度和更快的收敛速度。之后，她们展示了 GRAPES 处理了 ANN 的重点限制，包含缓解性能饱和以增多网络繁杂性和劫难性遗忘。

图示：减轻劫难性遗忘。（源自：论文）

科研人员认为这些属性源于这般一个事实，即 GRAPES 有效地将与对当前输入的响应关联的误差信号信息以及网络内部状态的信息相结合，而与数据样本无关。事实上，GRAPES 丰富了基于输入驱动责任的突触更新，并经过依赖于网络驱动责任的调制来丰富突触更新，这显示节点对网络输出的潜在影响，独立于输入。这般的训练策略赋予了用 GRAPES 训练的网络在较少许量的 epoch 中实现收敛的能力，由于训练不限于仅取决于所供给的训练样本的信息。出于一样的原由，无论是在学习任务上进行测试，还是在连续学习场景中呈现未见过的任务时，这种网络都比 SGD 表现出更好的泛化能力。在这种状况下，科研人员确定了大脑中可塑性类型的并行性。响应神经元活动的突触强度变化是由于两种形式的可塑性相互功效导致的：同突触和异突触。同突触可塑性出现在输入诱导时期活跃的突触处，因此呢是输入特定和相关的，做为输入驱动的责任。相反，异突触可塑性触及不被突触前活动激活的突触，并做为在同突触变化后稳定网络的附加机制。因此呢，与网络驱动的责任类似，异突触可塑性并不表现出严格的输入特异性。该团队的算法似乎与现有的归一化方法和赢家通吃计算原语有必定的类似性。然而，因为 GRAPES 依赖于网络驱动责任的概念，它的重点计算是基于突触强度而不是突触活动。另外，以前的工作已然思虑到神经元传达突触强度的可能性。例如，2010 年 Ila R. Fiete 团队提出了异突触长时间控制的总权重限制规则：当进入（或离开）一个神经元的突触的总权重超过限制时，该神经元的所有传入（或传出）突触都会被削弱。这种机制寓意着突触将相关突触权重值的信息传递给突触后节点，并且此类信息用于以非局部方式调节突触权重。第二个例子是 Kenneth D. Harris 和 Sarah N. Lewis 提出的轴突信号和神经市场理论。实验证据显示，神经元能够经过叫作为神经营养因子的分子携带轴突后信号，这些分子能够编码突触强度及其时间导数的信息。这些信息用于促进或阻碍突触权重变化的巩固。神经市场理论创立在轴突信号机制的基本上，并提出了大脑中神经元网络怎样自组织成功能网络的模型。神经市场理论和 GRAPES 算法都依赖于关于权重及其变化的信息的传播，因此呢这两个框架存在有些类比。首要，轴突后信号经过调节突触更新来控制突触的可塑性。类似地，GRAPES 中运用重要性向量来调节 BP 规定的权重变化。其次，携带体重强度和体重变化信息的轴突后信号传播缓慢；一样，GRAPES 中的信息仅在每批之后应用。第三，经过神经营养因子传播的信息和 GRAPES 中的重要性都不依赖于梯度。最后，Sarah N. Lewis 的理论引入了细胞价值的概念，它衡量了细胞输出的有用性，并被定义为倘若细胞死亡，网络性能的恶化。倘若一个细胞的所有传入连接都为零，则该细胞被灭活，因此呢一个细胞的价值与该细胞的传入突触的强度相关。因此呢，value 能够与 GRAPES 中节点重要性的概念关联。总之，GRAPES 的基本思想受到节点重要性、误差调制和重量强度通信的概念的启发，这些概念得到了科研树突整合、突触缩放和轴突后信号功效的实验的支持。虽然生物学灵感基于这些机制，但仅有类似 GRAPES 的可塑性调制的高级概念与神经回路中观察到的可塑性调制原理兼容。GRAPES 的好处源于对误差信号的调节。调制因子的非均匀分布，加上向上游层的传播，使得 GRAPES 在训练时期能够极重地加强突触更新的子集。因此呢，与 SGD 相比，小群突触能够在更大程度上加强或减弱。从初步骤查来看，GRAPES 似乎将网络权重传递给更具生物学恰当性的分布，尤其是重尾分布。IBM 科研院的科研人员认为 GRAPES 所展示的特性可能源于这种重量分布。该团队正在进行的工作日前正在寻求对这一现象的更全面的认识。值得重视的是，她们的结果显示，GRAPES 供给了一种有前途的策略，能够减轻由硬件关联约束（例如噪声和精度降低）导致的性能下降。这些约束在许多方面反映了生物电路，由于突触传递受噪声影响并且神经信号被量化。有趣的是，GRAPES 保存了与生物过程的许多类似之处。因此呢，该团队认为 GRAPES 的生物学机制可能在克服与硬件关联限制关联的限制方面发挥核心功效。另外，她们认为这种受大脑启发的特征是 GRAPES 对生物启发模型的好处的根源。已然证明，GRAPES 不仅改进了标准 ANN 的基于 BP 的训练，况且还显着加强了运用生物学上恰当的信用分配策略（例如 FA 和 DFA）训练的网络以及依赖于尖峰神经元动态的网络的性能。

图示：尖峰神经网络实验。（源自：论文）

FA 算法和 SNN 模型都是弥合生物学恰当性和设备学习的关键过程。然而，在现周期，与运用 BP 训练的 ANN 相比，它们只能取得有限的性能。例如，如结果部分所示，与 BP 相比，FA 和 SNNs 办法的准确性和收敛速度都较低，并且 SNNs 训练受到网络繁杂性和超参数变化的严重影响。因为对误差信号的有效调制加强了最重要参数的更新，GRAPES 减少了此类限制的影响，从而缩小了仿生算法与标准 ANN 性能之间的差距。总而言之，该团队的科研结果显示，在神经网络优化中结合 GRAPES 和更广泛的受大脑启发的局部原因，为生物启发学习算法的性能和新型神经形态计算技术的设计的关键发展，铺平了道路。数据位置：https://github.com/IBM/GRAPES论文链接：https://www.nature.com/articles/s41467-022-29491-2

人工智能 ×[ 生物神经科学数学理学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基本科学的交叉科研与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以得到更加多交流合作机会及服务。

j8typz · 发表于 2024-9-27 21:50:01

我们有着相似的经历，你的感受我深有体会。

		自动登录	找回密码
密码			立即注册