引言

之前学习的 critical point，在训练任务中并不是做大的障碍，也不是非常常见。也就是说，训练受阻，并不一定是梯度太小，还可能是别的原因。

1 Training stuck ≠ Small Gradient

Grad Norm（也称为 Norm of Gradient）：梯度范数，是梯度动态的量化‌，梯度范数反映参数更新步长的大小，直接影响优化过程的稳定性。

我们来看上面这张图，随着迭代的次数增加，loss趋于平缓不再下降。但是随着迭代的次数增加，梯度并不是趋于0的，而是在跳动。这说明此时训练停滞时（即loss趋于平缓），并不是因为 critical point （即梯度趋于0），而是别的原因。

由于梯度在上下跳动，很可能训练过程碰见了loss函数的“山谷”，梯度在山谷之间来回折返。

2 Learning Rate的影响

上面的图片中，error surface就是loss曲线，convex（凸的）即曲线只有一个碗状的谷底，没有坑坑洼洼的小盆地，也没有马鞍。可以将红色部分看作高地，颜色越灰地势越低。

当学习率为\eta = 10^{-2}时，由于学习率太大，梯度在上下大幅度跳动，无法收敛到loss较低的地方；当学习率\eta = 10^{-7}时，由于学习率很小，成功让loss收敛得越来越小，但是在后半段灰色部分，由于曲线非常平缓，而学习率又很小，所以收敛速度非常慢，很难达到loss最小值。

由此我们发现，在训练的不同时候，我们需要不同大小的Learning Rate。

在陡峭的地方，需要小的学习率；
在平缓的地方，需要大的学习率。

即对于不同的梯度，需要不同大小的学习率；

梯度是对某一组参数计算出来的，也即对于不同的参数，需要不同大小的学习率。

3 优化 Learning Rate：\eta \rightarrow \frac{\eta}{\sigma_i^t}

我们原先使用梯度下降进行更新参数时，使用的方法是：为了简单起见，我们只看一个参数，即在第i个参数\boldsymbol \theta_i。在第t+1轮更新参数时，\boldsymbol \theta_i^{t+1} \leftarrow \boldsymbol \theta_i^t - \eta \boldsymbol g_i^t，其中\boldsymbol g_i^t = \frac{\partial L}{\partial \boldsymbol \theta_i}|_{\boldsymbol \theta = \boldsymbol \theta^t}。

现在我们需要调整这个更新参数的过程，引入可调节的学习率\frac{\eta}{\sigma_i^t}。

更新过程变成：\boldsymbol \theta_i^{t+1} \leftarrow \boldsymbol \theta_i^t - \frac{\eta}{\sigma_i^t} \boldsymbol g_i^t。也就是将原来的学习率\eta变成了可变化的学习率\frac{\eta}{\sigma_i^t}。其中\sigma_i^t是一个依赖于i和t的值，它是在不断变化的，接下来讲解变化的方法。