DeepMind发布最新《神经网络中连续学习》综述论文！

wrjc1hod · 发表于 2024-8-30 16:45:39

源自：AI科技评论

本文约3200字，意见阅读6分钟

本文重点介绍有些神经网络中最有前途和最有影响力的方向。

在过去的几十年中，人工智能科研取得了巨大发展，然则它重点依赖于固定的数据集和固定的环境。而连续学习是一个越来越关联的科研行业，它关心人工系统怎样像生物系统那样从连续的关联数据流中连续地学习。近期，DeepMind在Cell上发布了13页的《神经网络中连续学习》综述论文。

本文将连续学习与神经网络的学习动力学联系起来，强调了其必须大大加强数据效率的潜能。本文进一步思虑近年来显现的许多受生物学启发的新办法，重点是利用正则化，模块性，记忆（ memory）和元学习的办法，并重点介绍有些最有前途和最有影响力的方向。

1、世界不是一成不变的

人工智能成功的一个平常基准是模仿人类学习的能力。咱们测绘人类识别图像、玩游戏和驾驶汽车的能力，而后研发能够匹配或超过给定训练数据的设备学习模型。然而这种范式将重点放在最后结果上，而不是学习过程上，并且忽略了人类学习的一个关键特征：对持续变化的任务和连续的经验拥有鲁棒性。人类能够以这种方式学习是不足为奇的，毕竟，时间是不可逆转的，世界不是一成不变的，因此呢人类的学习已进化到在动态学习环境中蓬勃发展。这种鲁棒性与现代最强大的设备学习办法形成为了鲜明的对比，后者仅在呈现经过精心shuffle，平衡和同质化的数据时才可表现良好。这些模型不仅在有所变化的数据情况时表现不良，况且在某些状况下会完全失效，或因初期学习的任务而引起性能急剧下降，这被叫作为劫难性遗忘。经过研发像人类同样连续持续学习的神经网络模型，能够得到什么？连续学习技术能够使模型得到专门的处理方法同期不丢掉以前的处理方法，从而有可能像人类同样终身学习。实质上，连续学习一般被认为是人类水平的人工智能的必要属性之一。从基本上讲，经过加强学习效率以及实现关联任务之间的知识迁移，连续学习办法乃至能够在固定环境下为深度神经网络供给巨大优良。

2、连续学习的基本、定义与要求基于生物系统的连续学习基本

对自然界及其智能物种的科研经常与人工智能科研相交，包含连续学习。生物学为在繁杂环境中成功进行连续学习供给了存在证据，并暗示了设计办法的原则和成功办法的取舍。有多种机制能够使生物系统适应持续变化的环境，而不会产生遗忘。因此呢，本节经过类似于其生物学等效物的方式介绍四个连续学习范式，如下图所示：

图1 连续学习的范式

连续学习的定义

连续学习的问题一般由次序训练协议和处理方法预期的功能来定义。与静态数据集或环境的通用设备学习设置相反，连续学习设置知道地专注于动态变化的环境，一般划分为需要次序完成的一组任务。此设置可能在任务转换（平滑或离散），任务长度和重复以及任务类型（例如无监督、监督或强化学习）方面有所区别，乃至可能无知道定义的任务。与课程学习比较，学习器没法掌控任务的次序。连续学习处理方法一般期盼满足许多需要，如下图所示并在方框1中定义。

图2 在连续学习环境中区别结果的图示连续学习的需求 之前任务的最小拜访。该模型无为以前的经验供给无限存储，并且至关重要的是，它没法与以前看到的任务进行交互。模型容量和计算的最小增多。该办法必须是可伸缩的：它不可为每一个后续任务添加新模型。减少劫难性的遗忘和干扰。对新任务的训练不应显着降低先前学习的任务的性能（图2 A，C）。快速适应和恢复。该模型应该能够快速适应新任务或行业转移，并且在呈现过去任务时能够快速恢复。保持可塑性。该模型应能够在观察到新任务时连续有效学习（图2 B）。最大化向前和向后传输。学习任务应该在学习效率和绩效方面都改善过去和将来的关联任务（图2 D，E）。与任务无关的学习。该办法不该依赖已知的任务标签或任务边界。

3、基于梯度的处理方法

图3 区别任务的梯度下降优化基于梯度的连续学习办法能够理解为突触可塑性模型的远亲。哺乳动物的大脑在突触级拥有繁杂的机制，能够防止新旧知识之间的干扰，乃至是事实和技能之间的冲突。虽然突触可塑性已然科研了数十年，然则许多核心功能仍然难以捉摸。基于梯度的办法的一个弱点是它们依赖于要达到的目的的近似值，这寓意着一旦模型显现了非常多任务或序列中的任务更加多样化，它们就很可能失败。

4、模块化架构

模块化是人工系统用来实现连续学习的另一个范式。从进化的方向来看，在日益繁杂的环境中成功的存活与神经系统的剧烈分化和专一性关联并非偶然。实质上，生物大脑是模块化的，拥有区别但相互功效的子系统（如用于记忆或运动掌控）。就稀疏激活和分层组织而言，模块化的证据已从解剖学特征扩展到功能分离。

模块化神经网络体系结构是对连续学习中的干扰和劫难性遗忘问题的一种自然而有效的处理方法。模块化亦能够表现为层次结构。理解模块化的另一种办法是从稀疏性的方向出发，它已从压缩和效率方向进行了广泛的探索，它亦对强化学习和掌控拥有适用性。从连续学习的方向来看，稀疏暗示和渐变都会引起较少的干扰和遗忘，由于将有较少的任务敏锐参数或较少的有效参数更改。稀疏性亦可能引起模块的显现，而无需预定义的模块化体系结构，咱们将其视为将来科研的重要途径。模块化的范式，尤其是在与稀疏约束和层次抽象结合时，供给了一种实用而强大的办法来处理连续学习的问题。展望将来，人类级人工智能将需要具备专业能力和技能组合能力，模块化的连续学习描述了通往两者的道路。

5、人工学习系统的记忆

大脑中的记忆系统对人类学习是至关重要的，并且是人工神经网络中基于记忆的连续学习的灵感源自。尽管神经科学尚未完全描述突触可塑性、情景记忆和语义记忆之间的繁杂相互功效，但很显著，记忆是守护人类学习和适应各样经历的长时间生命的堡垒。借鉴生物学的启发，本文思虑了一个更雄心勃勃的处理连续学习问题的办法：实现一个能够对知识或经验进行编码，存储和回忆的神经网络存储器。人工存储器针对长时间召回可能拥有更大的可伸缩性，然则它带来了额外的挑战，即以一种跨任务的方式来设计或最好学习用于编码，查找和编写信息的框架。用于连续学习的最简单的记忆实现一般叫作为回放或排练：其想法是维持观察的历史，而后从该缓冲区（以及当前的观察）中采样学习目的，从而经过连续排练来避免劫难性的遗忘以前看过的任务（图1 D）。在这种类别下，还有情节记忆办法，它们区别于排练办法，由于它们不仅运用回放记忆进行训练，况且还用到了推理。排练和情景记忆很简单，并且在减少遗忘方面非常有效，但它们的伸缩性欠好。无论面临什么挑战，记忆框架针对连续学习显然都是有价值的，况且最广泛的端到端模型有潜能在该行业开拓新的行业，但前提是咱们必须克服训练此类系统的挑战。

6、元学习：发掘用于连续学习的归纳偏差

用于连续学习的元学习是一种办法，该办法受大脑在有限的经验之后合成新颖处理方法的能力的激励。经过应用设备学习来优化学习办法本身，因此呢用来学习“学习”本身，元学习期盼实现与生物系统所展示的那种快速、通用的适应能力。到日前为止讨论的所有处理方法都规定了手动设计的机制或体系结构，归纳偏差，以进行连续学习。每一个归纳偏见都在巴望之间产生了区别的权衡，例如，良好的知识保存与基于内存的办法中的正向转移。值得思虑的是，是不是能够经过从数据中学习处理方法而不是依靠人类的独创性来设计处理方法，从而实现更好的折衷。从历史上看，许多“元学习”或“从学习到学习”的办法都显示，能够经过自动学习归纳性偏见（例如体系结构，数据和学习参数）来改善处理方法，否则这些就需要手动进行。

7、结语和将来方向

人类拥有快速学习和强大概括的非凡能力，正是这种能力能够使人类在科学，艺术和工业行业取得成就，但咱们并不经常提及人类在一辈子的教育和经验中持续学习的能力。本文不仅试图强调连续学习的重要性，况且试图揭露现代神经网络在这方面的局限性。经过调查，本文确定了几种学习范式，这些范式在神经科学和生物学系统中都有很强的类似性。基于梯度的办法直接修改了神经网络的优化，并且已然证明能够减少劫难性的遗忘。模块化体系结构经过技能和知识的分层重组为劫难性遗忘供给了务实的处理方法。端到端记忆模型可能是用于长期学习的可扩展处理方法，而元学习办法可能会完全超过手工设计的算法和体系结构。最后，连续学习处理方法能够经过加强学习算法的长时间靠谱性以及研发保证从边界的体系结构来减轻危害。编辑：于腾凯校对：汪雨晴

j8typz · 发表于 2024-11-13 10:01:54

认真阅读了楼主的帖子，非常有益。

		自动登录	找回密码
密码			立即注册