Relooking：损失权重λ 、梯度权重α、学习率η

一般多任务，大家都喜欢叠加很多损失，由此产生很多损失权重系数。此外，有的学者直接对梯度进行操作。咋一看，上面三个系数貌似重复多余，直接用其中一个系数代替不行吗？为此，回顾了下神经网络的前向传播和反向求导公式，感觉有点拉大旗作虎皮的意味。标题本来是“Rethinking”，想着会有一些新发现，但随后就改成了“Relooking”蒜鸟。

形式化

直观来说，损失权重 $λ$ 、梯度权重 $α$ 、学习率 $η$ 可以看做是三个标量系数，即trade-off parameter 或 weighting coefficient。
$\begin{aligned} L &=\lambda_1 L_1+\lambda_2 L_2\\ \nabla_\theta L &=\alpha_1 \nabla L_1+\alpha_2 \nabla L_2\\ \theta :&= \theta-\eta \cdot \nabla_\theta L \end{aligned}$

作用：

损失权重 $λ$ ：对相应任务的损失值进行缩放。 $λ$ 越大，表明该项贡献越大（越重要），则要放大其损失值，促使模型对该项的优化。反之，越小，则是该项损失趋近0，贡献被忽略。
梯度权重 $α$ ：在反向传播中，直接对梯度值进行缩放。
学习率 $η$ ：对所有梯度统一缩放，以控制模型参数的更新步长。 $η$ 越大，则模型参数的步长越大。

案例讲解

下面以一个神经网络的为例，从底层原理来看它们的作用。

1. 网络结构定义

考虑一个双层网络：

输入： $x$
参数： $W_1, b_1, W_2, b_2$
激活函数： $g(\cdot)$ (如ReLU)
输出层未激活

2. 前向传播

流程：Fc1 --> Activation --> Fc2。
$\begin{align} z_1 &= W_1 x + b_1 \\ a_1 &= g(z_1) \\ z_2 &= W_2 a_1 + b_2 \\ \end{align}$

3. 多任务损失计算

为了方便展示损失任务的权重系数，这里假设两个损失函数。其中，主任务交叉熵损失，辅助任务均方误差损失。
$\begin{align} L &= \lambda_1 \cdot \text{CE}(z_2, y_{\text{ce}}) + \lambda_2 \cdot \text{MSE}(a_1, y_{\text{mse}}) \\ &= \lambda_1 \cdot loss_1 + \lambda_2 \cdot loss_2 \end{align}$

4. 反向传播梯度计算

$\begin{align} \frac{\partial L}{\partial W_1} &= \frac{\partial (\lambda_1 loss_1 + \lambda_2 loss_2)}{\partial W_1} \\ &= \alpha_1 \left( \lambda_1 \frac{\partial loss_1}{\partial W_1}\right) + \alpha_2 \left( \lambda_2 \frac{\partial loss_2}{\partial W_1}\right) \\ &= \alpha_1 \lambda_1 \frac{\partial loss_1}{\partial W_1} + \alpha_2 \lambda_2 \frac{\partial loss_2}{\partial W_1} \\ \end{align}$

5. 参数更新

$W_1 \leftarrow W_1 - \eta \cdot \frac{\partial L}{\partial W_1}$

即：

$\Delta W_1 = -\eta \left[ \overbrace{\alpha_1}^{\text{梯度权重}} \left( \overbrace{\lambda_1}^{\text{损失权重}} \frac{\partial loss_1}{\partial W_1} \right) + \overbrace{\alpha_2}^{\text{梯度权重}} \left( \overbrace{\lambda_2}^{\text{损失权重}} \frac{\partial loss_2}{\partial W_1} \right) \right]$