神经网络优化器的核心算法以及为么需要它们

6hz7vif · 发表于 2024-8-31 14:55:09

实践教程，直观的深度学习，像SGD，动量，RMSPROP，ADAM和其他人同样，渐变下降优化器运用的柔和指南，以简单的英语

ketan doshi

10分钟阅读

> Photo by George Stackpole on Unsplash

优化器是神经网络架构的关键构成部分。在训练时期，她们在帮忙网络学习以加强更好的预测方面发挥着关键功效。

它们经过找到权重和偏差等最佳模型参数来执行此操作，以便该模型能够产生它们处理问题的最佳输出。

大都数神经网络运用的最平常的优化技术是梯度下降。

最受欢迎的深度学习图书馆，如Pytorch和Keras，基于梯度下降，持有广泛的内置优化器，例如。SGD，Adadelta，Adagagrad，RMSProp，Adam等。

为何有这么多区别的优化算法？咱们怎样决定选取哪一个？

倘若您读取每一个文件的文档，则描述怎样更新模型参数的公式。每一个配方是什么意思，其重要性是什么？

在咱们准备好进入数学之前，我与本文的目的是供给有些整体背景并得到有些关于每种算法怎样适合的一种直觉。事实上，我不会在这儿讨论公式，但会进行另一种讨论。

让咱们从工作中的梯度下降算法的典型3D照片起始。

> Loss curve for Gradient Descent (Source)

此照片表示拥有两个权重参数的网络：

水平平面分别拥有两个轴，分别用于重量W1和W2。垂直轴表示损耗的值，适用于权重的每一个组合

换句话说，曲线的形状表示了神经网络的“损失景观”。它绘制了权重的区别值的损失，而咱们将输入数据集固定在一块。

蓝线在优化时期绘制梯度下降算法的轨迹：

它经过为两个重量选取有些随机值来起始，并计算损耗值。在每次迭代时，它更新其权重值，引起较低的损耗（期盼），它移动到曲线的较低点最后，它到达其目的是损耗最低的曲线的底部。

计算渐变

该算法基于该点处的损耗曲线的梯度更新权重，以及学习速率因子。

> Gradient Descent parameter update (Image by Author)

梯度测绘斜率，并且是垂直方向（DL）的变化除以水平方向（DW）的变化。这寓意着梯度针对陡峭的斜坡而小，针对轻柔的斜坡而小。

> Computing the Gradient (Image by Author)

实践中的梯度下降

这些损失曲线是一个有用的可视化，以认识梯度下降的概念。然则，咱们应该认识到这是一个理想化的场景，而不是一个现实的情景：

上图表示了光滑的凸形曲线。实质上，曲线非常颠簸。 > A neural network loss landscape (Source, by permission of Hao Li)其次，咱们不会有2个参数。一般有数十或数百百万，并且没法想象或乃至想象在你的头上。

在每次迭代时，梯度血缘血液由“看着各个方向找到它能够下降的最佳斜坡”。那样当最好的坡度不是最好的方向时会出现什么？

倘若景观在一个方向上陡峭倾斜，但最低点是朝向更平缓的斜坡的方向？或倘若周边的景观相当平坦，怎么办？或倘若它沿着深沟沿着它攀登怎样爬出它？

这些是对其困难的曲线的有些例子。让咱们瞧瞧哪些接下来。

梯度下降优化的挑战

局部最小值

在典型的损失曲线中，除了全局最小值之外，您可能有许多本地最小值。因为梯度下降旨在继续向下，一旦它沿着局部最小，就会发掘爬回斜坡很难。因此它可能会在无达到全局最小的状况下陷入困境。

> Local minima and Global minimum (Source)

马鞍点

另一个关键挑战是“马鞍要点”的出现。这是一个点，在对应于一个参数的一个方向上，曲线处在局部最小值。另一方面，在对应于另一个参数的第二方向上，曲线处在局部最大值。

> Saddle Point (Source)

是什么让马鞍点棘手，是马鞍点周边的区域一般相当平坦，就像一个高原。这寓意着梯度接近零。这使得优化器在第1参数的方向上围绕鞍点振荡，而不可够沿第二参数的方向下降斜率。

因此呢，梯度下降不正确地假设它发掘它最小。

沟壑

梯度血统亦发掘难以遍历沟壑。这是一个长长的狭窄山谷，陡峭地沿一个方向（即，山谷的侧面），并且在第二方向上轻轻地（即沿着山谷）。这种山沟一般会引起最小。由于难以导航，这种形状亦叫作为病理曲率。

> Ravines (Modified from Source, by permission of James Martens)

想象一下这就像一只狭窄的河流，从山上轻轻地倾斜，直到它在湖中结束。你想做的是在山谷的方向上快速下行。然而，梯度下降非常容易沿着山谷的侧面来回反弹，并在河的方向上非常缓慢地移动。

虽然它们继续在核心下运用梯度下降，但优化算法已然研发了一系列改善的香草梯度下降，以处理这些挑战。

梯度下降的首要改进 - 随机梯度下降（SGD）

梯度下降一般寓意着“全批梯度下降”，其中运用数据集中的所有项目计算丢失和梯度。

相反，迷你批量随机梯度血液为每一个训练迭代采用数据集的随机选取的子集。

随机性有助于咱们探索损失景观。

早些时候咱们已然说到经过改变模型参数来得到损耗曲线，同期保持输入数据集固定。但是，倘若经过在每一个小批处理中选取区别的数据样本来改变输入，则损耗值和渐变亦会变化。换句话说，经过改变输入数据集，能够运用每一个迷你批处理得到略微区别的损耗曲线。

因此呢，即使您在一个百分之批处理中陷入景观中的某个地区，您可能会看到下一个迷你批次的区别景观，这让您继续移动。这能够防止算法卡在景观的特定部分中，尤其是在培训的初期周期。

梯度下降的第二种改善 - 动量

动态调节更新量

梯度下降的棘手方面之一是处理陡峭的斜坡。由于梯度在那里很大，因此当你实质上想要慢慢地和小心时，你可能会迈出一大步。这可能引起来回弹跳，从而减慢训练。

> (Image by Author)

理想状况下，您期盼动态地改变更新的体积，因此呢您能够响应您周边景观的变化。倘若斜坡非常陡峭，你想要减速。倘若斜坡非常平坦，你可能想要加速等等。

梯度下降，基于梯度和学习速率，您能够在每一个过程中进行更新。因此呢，要修改更新的体积，您能够执行两件事：

调节梯度调节学习率

动量与SGD.

势头是一种以前的方式，以上是。调节梯度。

运用SGD，咱们只看日前的渐变并忽略所有过去的梯度。这寓意着倘若损失曲线中存在忽然反常，您的轨迹可能会抛弃课程。

另一方面，当运用动量时，您能够让过去的渐变引导整体方向，以便您留在课程中。这使您能够运用您这里一点中看到的周边景观的认识，并有助于控制反常值在损失曲线中的效果

第1个问题是你过去有多远？你走的另一一步，你会受到反常影响得越少。其次，每一个梯度都是从过去计数的一样？近期过去的事情应该是从遥远的过去的东西算上的东西。因此呢，倘若景观的变化不是反常，而是真正的结构变化，那样你确实需要对它做出反应并逐步改变你的课程。

动量算法运用梯度的指数移动平均值，而不是当前梯度值。

运用动量的横向沟壑

动量能够帮忙您处理病态曲率的狭窄蹂躏问题，其中梯度非常高，针对一个重量参数，但另一个参数非常低。

> Momentum helps you traverse ravines (Modified from Source, by permission of James Martens)

经过运用动量，您将控制SGD会出现的Zig Zag振荡。

针对拥有陡坡的第1个参数，大梯度会引起从谷的一边到另一边的“曲折”。然则，在下一步中，这将被反面中的“ZAG”取消。另一方面，针对第二个参数，第1步的小更新由第二步的小更新加强，由于它们处在相同方向。这是你想去的山谷的方向。

运用区别公式运用动量的优化器算法的有些示例是：

SGD与势头nesterov加速梯度

第三次改善梯度下降 - 修改学习率（基于梯度）

如上所述，修改参数更新量的第二种办法是经过调节学习率。

到日前为止，咱们始终在将学习速度保持在一个迭代到下一个迭代。其次，渐变更新运用了所有参数的相朋友习率。

然则，正如咱们所看到的，区别参数的梯度之间可能存在大的变化。一个参数可能有一个陡峭的斜率，而另一个参数拥有平缓的斜率。

咱们能够利用这一点来调节每一个参数的学习率。咱们能够利用过去的渐变（分别为每一个参数）选取该参数的学习速率。

运用略微区别的技术，有有些优化器算法这般做，例如。Adagrad，Adadelta，RMS Prop。

例如，Adagrad平方于过去的渐变并增多它们，一样加权所有这些。RMSPROP还在过去的梯度方方化，但运用其指数移动平均值，从而更重要地对近期的梯度。

此刻，经过平衡梯度，它们都变成为了正面的IE。有相同的方向。这否定了咱们谈到动量的抵消效果，朝着相反方向的渐变。

这寓意着针对拥有陡坡斜率的参数，梯度很大，梯度的正方形非常大并且总是正的，因此呢它们快速累积。为了控制这一点，算法通过将累积的平方梯度除以很强的原因来计算学习率。这准许它减慢陡峭的斜坡。

类似地，针对浅斜率，累积很小，因此呢算法将累积的正方形分成较小的原因来计算学习率。这会加强温和斜坡的学习率。

有些优化器算法组合了这两种办法 - 按照以上修改学习率以及运用动量来修改梯度。例如。亚当及其许多变种，羔羊。

第四次改善梯度下降 - 修改学习率（按照您的培训进度）

在上一节中，基于参数的梯度修改了学习速率。另外，咱们能够按照培训过程的发展来调节学习率。基于训练epoch设置的学习速率，并在该点处独立于模型的参数。

这实质上不是由于优化器完成的。事实上，它是叫作为调度器的神经网络的单独组件。我说到这是为了完整性，并展示咱们与咱们讨论的优化技术的关系，但在这儿不会进一步覆盖它们。

结论

咱们此刻认识基于梯度下降的优化器运用的基本技术，为何它们运用，以及它们怎样彼此关联。

这使咱们能够更好地进入许多详细的优化算法，并认识她们怎样仔细工作。我期盼火速地涵盖另一篇文案……

让咱们继续学习！

(本文由闻数起舞翻译自Federico Mannucci的文案《Neural Network Optimizers Made Simple: Core algorithms and why they are needed》，转载请注明出处，原文链接：

https://towardsdatascience.com/neural-network-optimizers-made-simple-core-algorithms-and-why-they-are-needed-7fd072cd2788)

		自动登录	找回密码
密码			立即注册