大脑带来的启发:深度神经网络优化中突触整合原理介绍
<span style="color: black;">编辑 | 萝卜皮</span><span style="color: black;">众所周知,大脑中的可塑性回路<span style="color: black;">经过</span>突触整合和突触强度的局部调节机制受到突触权重分布的影响。然而,迄今为止设计的大<span style="color: black;">都数</span>人工神经网络训练算法都忽略了刺激依赖性可塑性与局部学习信号的<span style="color: black;">繁杂</span>相互<span style="color: black;">功效</span>。</span><span style="color: black;">在<span style="color: black;">这儿</span>,IBM <span style="color: black;">科研</span>院的<span style="color: black;">科研</span>人员,</span><span style="color: black;">提出了一种新的受生物学启发的人工和尖峰神经网络优化器,该优化器结合了在皮质树突中观察到的突触可塑性的关键原则:GRAPES(Group Responsibility for Adjusting the Propagation of Error Signals)。GRAPES 在网络的<span style="color: black;">每一个</span>节点上实现了与权重分布<span style="color: black;">关联</span>的误差信号调制。</span><span style="color: black;"><span style="color: black;">科研</span><span style="color: black;">显示</span>,这种受生物学启发的机制<span style="color: black;">能够</span>显着<span style="color: black;">加强</span><span style="color: black;">拥有</span>前馈、卷积和循环架构的人工和尖峰网络的性能,它<span style="color: black;">能够</span>减轻<span style="color: black;">劫难</span>性遗忘,并且最适合专用硬件实现。总而言之,将神经生理学见解与<span style="color: black;">设备</span>智能相协调是<span style="color: black;">加强</span>神经网络性能的关键。</span><span style="color: black;">该<span style="color: black;">科研</span>以「Introducing principles of synaptic integration in the optimization of deep neural networks」为题,于 2022 年 4 月 7 日发布在《Nature Communications》。</span><img src="https://mmbiz.qpic.cn/mmbiz_png/XLCp9HBkwLmyJU82pwhJceQs3RUmMpnFVmOCiakQicee9ILNEZ754OpTlYmkTPIm5tFicUBpYc8M9iaUaKvZeg1VfA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">人工神经网络 (ANN) 在 1940 年代首次提出,<span style="color: black;">做为</span>哺乳动物大脑神经回路的简化计算模型。随着计算能力的进步,人工神经网络偏离了它们最初受到启发的神经生物学系统,并重新定<span style="color: black;">位置于</span><span style="color: black;">日前</span>广泛应用中<span style="color: black;">运用</span>的计算技术的发展。在提出的用于训练多层神经网络的<span style="color: black;">各样</span>技术中,反向传播 (BP) 算法已被证明是一种有效的训练<span style="color: black;">方法</span>。尽管<span style="color: black;">设备</span>智能取得了令人瞩目的进步,但人工神经网络的<span style="color: black;">潜能</span>与大脑计算能力之间的差距仍有待缩小。</span><span style="color: black;">人工神经网络的基本问题,如训练时间长、<span style="color: black;">劫难</span>性遗忘和<span style="color: black;">没法</span>利用日益<span style="color: black;">增多</span>的网络<span style="color: black;">繁杂</span>性,不仅需要处理人类大脑的能力,还需要<span style="color: black;">加强</span><span style="color: black;">平常</span><span style="color: black;">运用</span>设备的性能。例如,减少<span style="color: black;">设备</span>人应用程序中在线学习的训练时间<span style="color: black;">针对</span><span style="color: black;">保证</span><span style="color: black;">设备</span>人代理快速适应新环境并降低与训练<span style="color: black;">关联</span>的能源成本至关重要。<span style="color: black;">已然</span>提出了几种技术,例如批量归一化、层归一化和权重归一化,以加速 ANN 的训练。这些<span style="color: black;">办法</span>虽然成功地<span style="color: black;">加强</span>了收敛速度,但距离生物大脑的学习能力还差得很远。</span><span style="color: black;">与哺乳动物的神经回路相比,人工神经网络在大脑方面的局限性很大程度上归因于其结构和动力学的大幅简化。对大脑功能至关重要的几种机制,<span style="color: black;">包含</span>突触整合和体重强度的局部调节,<span style="color: black;">一般</span>不在基于 BP 的人工神经网络训练中建模。</span><span style="color: black;">克服这一限制可能是使人工网络的性能更接近动物智能的关键。突触整合是神经元在产生动作电位 (AP) 之前结合数千个突触前神经元接收到的尖峰序列的过程。轴突 AP 在细胞的轴突中被引出,<span style="color: black;">做为</span>对从细胞树突接收到的输入的响应,并充当神经元的整体输出信号。</span><span style="color: black;">实验证据<span style="color: black;">显示</span>,<span style="color: black;">最少</span>在 CA1 细胞中,<span style="color: black;">因为</span>树突的活跃特性,来自<span style="color: black;">区别</span>突触前神经元的输入信号到达同一突触后细胞可能与非线性动力学相互<span style="color: black;">功效</span>。<span style="color: black;">详细</span>而言,当在树突分支中<span style="color: black;">出现</span>强去极化时,在该区域中<span style="color: black;">诱发</span>树突AP。树突状 AP 会<span style="color: black;">加强</span>产生它的兴奋性突触后电位(EPSP)总和的幅度,从而在树突状输入到达胞体之前放大树突状输入以<span style="color: black;">诱发</span>轴突 AP。树突尖峰的产生需要空间上连接到同一分支的足够多的突触前细胞在时间上以足够的突触强度活跃。</span><span style="color: black;"><span style="color: black;">因此呢</span>,突触输入影响突触后神经元输出的能力取决于它们在树突树中的位置。神经元强大的计算能力被认为源于源自树突尖峰的<span style="color: black;">繁杂</span>非线性动力学。下图<span style="color: black;">显示</span>了这种机制,并<span style="color: black;">表示</span>了<span style="color: black;">每一个</span>突触前神经元的影响<span style="color: black;">怎样</span>还取决于<span style="color: black;">经过</span>其他突触前连接传递到同一突触后神经元的信号。<span style="color: black;">因此呢</span>,局部权重分布<span style="color: black;">能够</span>负责<span style="color: black;">提高</span>特定节点的输入信号。与大脑中的神经元类似,ANN 中的节点接收来自许多细胞的输入并产生单个输出。</span><span style="color: black;"><span style="color: black;">科研</span>人员<span style="color: black;">能够</span>将人工节点的激活与轴突 AP 联系起来,但树突 AP 的机制并<span style="color: black;">无</span>严格地转化为点神经元的动力学。然而,树突尖峰受到树突分支内突触强度分布的<span style="color: black;">剧烈</span>影响。类似地,人工节点的非线性动力学受到进入一层节点的突触权重分布的影响。<strong style="color: blue;">令人惊讶的是,在人工神经网络的<span style="color: black;">平常</span>训练<span style="color: black;">办法</span>中,缺乏<span style="color: black;">思虑</span><span style="color: black;">每一个</span>节点权重分布的机制。</strong></span><img src="https://mmbiz.qpic.cn/mmbiz_png/XLCp9HBkwLmyJU82pwhJceQs3RUmMpnFQNa5pAzRW2yK0vvqELVlXcPtrX6a3JRWMdKiaEh3B987KC6KYlPmT9w/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/mmbiz_png/XLCp9HBkwLmyJU82pwhJceQs3RUmMpnFDL0kN7CzgwXgMcO6ArTMkTgZAULrI6ics4fumzRVl6shLAaFZBHKREg/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"></p><span style="color: black;">图示:生物和人工网络中的突触强度分布。(<span style="color: black;">源自</span>:论文)</span><span style="color: black;"><span style="color: black;">另外</span>,大脑中的突触可塑性<span style="color: black;">重点</span>由局部信号驱动,例如邻近神经元的活动。突触之间的局部相互<span style="color: black;">功效</span>在调节学习过程中的体重变化中起着至关重要的<span style="color: black;">功效</span>。在这种<span style="color: black;">状况</span>下,异突触竞争机制<span style="color: black;">准许</span><span style="color: black;">经过</span>限制连接到相同突触前或突触后神经元的突触的总强度来调节突触生长。这种现象<span style="color: black;">出现</span>在<span style="color: black;">每一个</span>神经元的突触之间的非线性竞争。</span><span style="color: black;">受非线性突触整合和局部突触强度调节的生物学机制的启发,IBM <span style="color: black;">科研</span>院和苏黎世大学的<span style="color: black;">科研</span>人员提出了 GRAPES(<span style="color: black;">调节</span>错误信号传播的组责任),这是一种用于 ANN 和 SNN 训练的新型优化器。GRAPES 依赖于节点重要性的新概念,该概念将网络中<span style="color: black;">每一个</span>节点的责任量化为层内局部权重分布的函数。</span><img src="https://mmbiz.qpic.cn/mmbiz_png/XLCp9HBkwLmyJU82pwhJceQs3RUmMpnFKVEr0LMibqM2n89LbMibScFwngSFqdv0b6qgXXjyTqDp69Gag0ia02kqg/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">图示:调制因子的计算。(<span style="color: black;">源自</span>:论文)</span><span style="color: black;">应用于基于梯度的优化算法,GRAPES <span style="color: black;">供给</span>了一种简单有效的策略来动态<span style="color: black;">调节</span><span style="color: black;">每一个</span>节点的误差信号并<span style="color: black;">加强</span>最<span style="color: black;">关联</span>参数的更新。与动量等优化器相比,该<span style="color: black;">办法</span>不需要存储先前<span style="color: black;">过程</span>的参数,避免了额外的内存损失。这个特性使得 GRAPES 在生物学上比基于动量的优化器更<span style="color: black;">恰当</span>,<span style="color: black;">由于</span>神经回路<span style="color: black;">不可</span><span style="color: black;">保存</span>来自先前状态的大部分信息。</span><span style="color: black;"><span style="color: black;">科研</span>人员在五个静态数据集(MNIST、CIFAR-<span style="color: black;">十、</span>CIFAR-100、Fashion MNIST 和 Extended MNIST)上<span style="color: black;">运用</span> ANN 以及在时间速率编码的 MNIST 上<span style="color: black;">运用</span> SNN 验证了该<span style="color: black;">办法</span>。<span style="color: black;">她们</span>成功地将 GRAPES 应用于监督学习的<span style="color: black;">区别</span>训练<span style="color: black;">办法</span>,即 BP、FA 和 DFA,以及<span style="color: black;">区别</span>的优化器,即 SGD、RMSprop 和 NAG。<span style="color: black;">科研</span>人员证明了所提出的基于权重的调制<span style="color: black;">能够</span>在 ANN 和 SNN 中带来更高的<span style="color: black;">归类</span>精度和更快的收敛速度。之后,<span style="color: black;">她们</span>展示了 GRAPES <span style="color: black;">处理</span>了 ANN 的<span style="color: black;">重点</span>限制,<span style="color: black;">包含</span>缓解性能饱和以<span style="color: black;">增多</span>网络<span style="color: black;">繁杂</span>性和<span style="color: black;">劫难</span>性遗忘。</span><img src="https://mmbiz.qpic.cn/mmbiz_png/XLCp9HBkwLmyJU82pwhJceQs3RUmMpnF8icNzeLyjCRVxWvQrWXFpTcgyClstiaEI2xyia38ibcRicPJBwjT7nW9CpQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">图示:减轻<span style="color: black;">劫难</span>性遗忘。(<span style="color: black;">源自</span>:论文)</span></p><span style="color: black;"><span style="color: black;">科研</span>人员认为这些属性源于<span style="color: black;">这般</span>一个事实,即 GRAPES 有效地将与对当前输入的响应<span style="color: black;">关联</span>的误差信号信息以及网络内部状态的信息相结合,而与数据样本无关。事实上,GRAPES 丰富了基于输入驱动责任的突触更新,并<span style="color: black;">经过</span>依赖于网络驱动责任的调制来丰富突触更新,这<span style="color: black;">显示</span>节点对网络输出的潜在影响,独立于输入。</span><span style="color: black;"><span style="color: black;">这般</span>的训练策略赋予了用 GRAPES 训练的网络在较<span style="color: black;">少许</span>量的 epoch 中实现收敛的能力,<span style="color: black;">由于</span>训练不限于仅取决于所<span style="color: black;">供给</span>的训练样本的信息。出于<span style="color: black;">一样</span>的<span style="color: black;">原由</span>,无论是在学习任务上进行测试,还是在<span style="color: black;">连续</span>学习场景中呈现未见过的任务时,这种网络都比 SGD 表现出更好的泛化能力。</span><span style="color: black;">在这种<span style="color: black;">状况</span>下,<span style="color: black;">科研</span>人员确定了大脑中可塑性类型的并行性。响应神经元活动的突触强度变化<span style="color: black;">是由于</span>两种形式的可塑性相互<span style="color: black;">功效</span><span style="color: black;">导致</span>的:同突触和异突触。同突触可塑性<span style="color: black;">出现</span>在输入诱导<span style="color: black;">时期</span>活跃的突触处,<span style="color: black;">因此呢</span>是输入特定和<span style="color: black;">相关</span>的,<span style="color: black;">做为</span>输入驱动的责任。</span><span style="color: black;">相反,异突触可塑性<span style="color: black;">触及</span>不被突触前活动激活的突触,并<span style="color: black;">做为</span>在同突触变化后稳定网络的附加机制。<span style="color: black;">因此呢</span>,与网络驱动的责任类似,异突触可塑性并不表现出严格的输入特异性。</span><span style="color: black;">该团队的算法似乎与现有的归一化<span style="color: black;">方法</span>和赢家通吃计算原语有<span style="color: black;">必定</span>的<span style="color: black;">类似</span>性。然而,<span style="color: black;">因为</span> GRAPES 依赖于网络驱动责任的概念,它的<span style="color: black;">重点</span>计算是基于突触强度而不是突触活动。<span style="color: black;">另外</span>,以前的工作<span style="color: black;">已然</span><span style="color: black;">思虑</span>到神经元传达突触强度的可能性。例如,2010 年 Ila R. Fiete 团队提出了异突触<span style="color: black;">长时间</span><span style="color: black;">控制</span>的总权重限制规则:当进入(或离开)一个神经元的突触的总权重超过限制时,该神经元的所有传入(或传出)突触都会被削弱。这种机制<span style="color: black;">寓意</span>着突触将<span style="color: black;">相关</span>突触权重值的信息传递给突触后节点,并且此类信息用于以非局部方式调节突触权重。</span><span style="color: black;">第二个例子是 Kenneth D. Harris 和 Sarah N. Lewis 提出的轴突信号和神经市场理论。实验证据<span style="color: black;">显示</span>,神经元能够<span style="color: black;">经过</span><span style="color: black;">叫作</span>为神经营养因子的分子携带轴突后信号,这些分子<span style="color: black;">能够</span>编码突触强度及其时间导数的信息。这些信息用于促进或阻碍突触权重变化的巩固。神经市场理论<span style="color: black;">创立</span>在轴突信号机制的<span style="color: black;">基本</span>上,并提出了大脑中神经元网络<span style="color: black;">怎样</span>自组织成功能网络的模型。神经市场理论和 GRAPES 算法都依赖于关于权重及其变化的信息的传播,<span style="color: black;">因此呢</span>这两个框架存在<span style="color: black;">有些</span>类比。</span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">首要</span></strong>,轴突后信号<span style="color: black;">经过</span>调节突触更新来控制突触的可塑性。类似地,GRAPES 中<span style="color: black;">运用</span>重要性向量来调节 BP 规定的权重变化。<strong style="color: blue;">其次</strong>,携带体重强度和体重变化信息的轴突后信号传播缓慢;<span style="color: black;">一样</span>,GRAPES 中的信息仅在每批之后应用。<strong style="color: blue;">第三</strong>,<span style="color: black;">经过</span>神经营养因子传播的信息和 GRAPES 中的重要性都不依赖于梯度。<strong style="color: blue;">最后</strong>,Sarah N. Lewis 的理论引入了细胞价值的概念,它衡量了细胞输出的有用性,并被定义为<span style="color: black;">倘若</span>细胞死亡,网络性能的恶化。</span><span style="color: black;"><span style="color: black;">倘若</span>一个细胞的所有传入连接都为零,则该细胞被灭活,<span style="color: black;">因此呢</span>一个细胞的价值与该细胞的传入突触的强度<span style="color: black;">相关</span>。<span style="color: black;">因此呢</span>,value <span style="color: black;">能够</span>与 GRAPES 中节点重要性的概念<span style="color: black;">关联</span>。</span><span style="color: black;">总之,GRAPES 的基本思想受到节点重要性、误差调制和重量强度通信的概念的启发,这些概念得到了<span style="color: black;">科研</span>树突整合、突触缩放和轴突后信号<span style="color: black;">功效</span>的实验的支持。虽然生物学灵感基于这些机制,但<span style="color: black;">仅有</span>类似 GRAPES 的可塑性调制的高级概念与神经回路中观察到的可塑性调制原理兼容。</span><span style="color: black;">GRAPES 的好处源于对误差信号的<span style="color: black;">调节</span>。调制因子的非均匀分布,加上向上游层的传播,使得 GRAPES 在训练<span style="color: black;">时期</span>能够<span style="color: black;">极重</span>地<span style="color: black;">加强</span>突触更新的子集。<span style="color: black;">因此呢</span>,与 SGD 相比,小群突触能够在更大程度上<span style="color: black;">加强</span>或减弱。</span><span style="color: black;">从初<span style="color: black;">步骤</span>查来看,GRAPES 似乎将网络权重传递给更具生物学<span style="color: black;">恰当</span>性的分布,<span style="color: black;">尤其</span>是重尾分布。IBM <span style="color: black;">科研</span>院的<span style="color: black;">科研</span>人员认为 GRAPES 所展示的特性可能源于这种重量分布。该团队正在进行的工作<span style="color: black;">日前</span>正在寻求对这一现象的更全面的<span style="color: black;">认识</span>。</span><span style="color: black;">值得<span style="color: black;">重视</span>的是,<span style="color: black;">她们</span>的结果<span style="color: black;">显示</span>,GRAPES <span style="color: black;">供给</span>了一种有前途的策略,<span style="color: black;">能够</span>减轻由硬件<span style="color: black;">关联</span>约束(例如噪声和精度降低)<span style="color: black;">导致</span>的性能下降。这些约束在许多方面反映了生物电路,<span style="color: black;">由于</span>突触传递受噪声影响并且神经信号被量化。有趣的是,GRAPES <span style="color: black;">保存</span>了与生物过程的许多<span style="color: black;">类似</span>之处。<span style="color: black;">因此呢</span>,该团队认为 GRAPES 的生物学机制可能在克服与硬件<span style="color: black;">关联</span>限制<span style="color: black;">关联</span>的限制方面发挥核心<span style="color: black;">功效</span>。</span><span style="color: black;"><span style="color: black;">另外</span>,<span style="color: black;">她们</span>认为这种受大脑启发的特征是 GRAPES 对生物启发模型的好处的根源。<span style="color: black;">已然</span>证明,GRAPES 不仅改进了标准 ANN 的基于 BP 的训练,<span style="color: black;">况且</span>还显着<span style="color: black;">加强</span>了<span style="color: black;">运用</span>生物学上<span style="color: black;">恰当</span>的信用分配策略(例如 FA 和 DFA)训练的网络以及依赖于尖峰神经元动态的网络的性能。</span><img src="https://mmbiz.qpic.cn/mmbiz_png/XLCp9HBkwLmyJU82pwhJceQs3RUmMpnFuE4cSrFMFib6QZYqGAsRYHgKtWr6AaM1PicNavWCdK8uRD6ntQo6bBFg/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">图示:尖峰神经网络实验。(<span style="color: black;">源自</span>:论文)</span></p><span style="color: black;">FA 算法和 SNN 模型都是弥合生物学<span style="color: black;">恰当</span>性和<span style="color: black;">设备</span>学习的关键<span style="color: black;">过程</span>。然而,在现<span style="color: black;">周期</span>,与<span style="color: black;">运用</span> BP 训练的 ANN 相比,它们只能取得有限的性能。例如,如结果部分所示,与 BP 相比,FA 和 SNNs <span style="color: black;">办法</span>的准确性和收敛速度都较低,并且 SNNs 训练受到网络<span style="color: black;">繁杂</span>性和超参数变化的严重影响。<span style="color: black;">因为</span>对误差信号的有效调制<span style="color: black;">加强</span>了最重要参数的更新,GRAPES 减少了此类限制的影响,从而缩小了仿生算法与标准 ANN 性能之间的差距。</span><span style="color: black;">总而言之,该团队的<span style="color: black;">科研</span>结果<span style="color: black;">显示</span>,在神经网络优化中结合 GRAPES 和更<span style="color: black;">广泛</span>的受大脑启发的局部<span style="color: black;">原因</span>,为生物启发学习算法的性能和新型神经形态计算技术的设计的关键<span style="color: black;">发展</span>,铺平了道路。</span><span style="color: black;">数据<span style="color: black;">位置</span>:https://github.com/IBM/GRAPES</span><span style="color: black;">论文链接:https://www.nature.com/articles/s41467-022-29491-2</span>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">人工智能 </span></strong></span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">×</span></strong></span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">[ 生物 神经科学</span><span style="color: black;">数学 <span style="color: black;">理学</span> 材料 ]</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;"><span style="color: black;">「ScienceAI</span>」关注人工智能与其他前沿技术及<span style="color: black;">基本</span>科学的交叉<span style="color: black;">科研</span>与融合发展</span></strong></span><strong style="color: blue;"><span style="color: black;">。</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">欢迎</span></strong></span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">关</span></strong><strong style="color: blue;"><span style="color: black;">注标星</span></strong></span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">,并点击右下角</span></strong></span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">点赞</span></strong></span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">和</span></strong></span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">在看</span></strong></span><strong style="color: blue;"><span style="color: black;">。</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">点击</span></strong><span style="color: black;"><strong style="color: blue;"><span style="color: black;">阅</span></strong></span><span style="color: black;"><strong style="color: blue;"><span style="color: black;">读原文</span></strong></span><strong style="color: blue;"><span style="color: black;">,加入专业从业者社区,以<span style="color: black;">得到</span><span style="color: black;">更加多</span>交流合作机会及服务。</span></strong></p>
我们有着相似的经历,你的感受我深有体会。
页:
[1]