Xavier公式的原理

数学原理：

(1) 前向传播的方差一致性

假设输入 x 的均值为 0，方差为 $σ_x^2$ ，权重 W的均值为 0，方差为 $σ_W^2$ ，则输出 $z = W x$ 的方差为：
$Var(z)=n_{in}⋅Var(W)⋅Var(x)$
为了使 Var(z)=Var(x)，需要：
$n_{in}⋅Var(W)=1 ⟹ Var(W)=\frac{1}{n_{in}}$
其中 $n_{in}$ 是输入维度（fan_in）。这里乘以 nin 的原因是，输出 z 是由 nin 个输入 x 的线性组合得到的，每个输入 x 都与一个权重 W 相乘。因此，输出 z 的方差是 nin 个独立的 Wx 项的方差之和。

(2) 反向传播的梯度方差一致性

在反向传播过程中，梯度 $∂L∂x\frac{∂L}{∂x}$ 是通过链式法则计算得到的，其中 L 是损失函数，x 是输入，z 是输出。梯度 $∂L∂x\frac{∂L}{∂x}$ 可以表示为：
$\frac{∂L}{∂x}=\frac{∂L}{∂z}.\frac{∂z}{∂x}$
假设 z=Wx，其中 W 是权重矩阵，那么 $∂z∂x=W\frac{∂z}{∂x}=W$ 。因此，梯度 $∂L∂x\frac{∂L}{∂x}$ 可以写为： $∂L∂x=∂L∂zW\frac{∂L}{∂x}=\frac{∂L}{∂z}W$

反向传播时梯度 $∂L∂x\frac{∂L}{∂x}$ 的方差应与 $∂L∂z\frac{∂L}{∂z}$ 相同，因此：
$n_{out}⋅Var(W)=1 ⟹ Var(W)=\frac{1}{n_{out}}$
其中 $n_{out}$ 是输出维度（fan_out）。为了保持梯度的方差一致性，我们需要确保每个输入维度 nin 的梯度方差与输出维度 nout 的梯度方差相同。因此，我们需要将 W 的方差乘以 nout，以确保梯度的方差在反向传播过程中保持一致。

(3) 综合考虑

为了同时平衡前向传播和反向传播，Xavier 采用：
$Var(W)=\frac{2}{n_{in}+n_{out}}$
权重从以下分布中采样：

均匀分布：
$W\sim\mathrm{U}\left(-\frac{\sqrt{6}}{\sqrt{n_\mathrm{in}+n_\mathrm{out}}},\frac{\sqrt{6}}{\sqrt{n_\mathrm{in}+n_\mathrm{out}}}\right)$

在Xavier初始化中，我们选择 $a=−6nin+nouta=−\sqrt{\frac{6}{n_{in}+n_{out}}}$ 和 $b=6nin+noutb=\sqrt{\frac{6}{n_{in}+n_{out}}}$ ，这样方差为：
$Var(W)=\frac{(b−a)^2}{12}=\frac{(2\sqrt{\frac{6}{n_{in}+n_{out}}})^2}{12}=\frac{4⋅\frac{6}{nin+nout}}{12}=\frac{2}{n_{in}+n_{out}}$
正态分布：
$W\sim\mathrm{N}\left(0,\frac{2}{n_\mathrm{in}+n_\mathrm{out}}\right)$

$\mathcal{N}(0, \text{std}^2)$

其中 $ninn_{\text{in}}$ 是当前层的输入神经元数量， $noutn_{\text{out}}$ 是输出神经元数量。

在前向传播中，输出的方差受 $n_{in}$ 影响。在反向传播中，梯度的方差受 $n_{out}$ 影响。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/news/914039.shtml
繁体地址，请注明出处：http://hk.pswp.cn/news/914039.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！