一、RNN
1. 在RNN中,
2. RNN是一个序列模型,与非序列模型不同,序列中的元素互相影响: 是由
计算得来的。
在前向传播中: 用于计算
和
用于计算
和
因此,当进行反向链式法则求导时候,
的梯度 由两部分组成:
一部分是由 对
求导计算得来;
一部分是由 对
求导计算得来。
这就对应了代码的:
gradients = rnn_cell_backward(da[:,:,t] + da_prevt, caches[t])
二、GRU
1. GRU是为了解决RNN 梯度消失引入的改良模型,
2. GRU 通过门控 Gamma_r Gamma_u 两个变量,实现了对于过往记忆的筛选:这种机制使得GRU能够灵活地决定何时“忘记”过去的信息以及何时“记住”新的信息,从而有效地捕捉序列数据中的长期依赖关系。
具体理解如下: