2. 循环神经网络 RNN

2.1 RNN 与序列建模 **

RNN 结构
- 隐藏状态 $h_t=\sigma(Ux_t+Wh_{t-1}+b)$ ，通常 tanh
- 输出状态 $o_t=g(Vh_t+c)$
- 损失 $L=\sum_t L_t=\sum_t Loss(o_t,y_t)$
- 基于时间的反向传播（Back Propagation Through Time, BPTT）
CNN 对序列建模
- TextCNN：文本序列 -> 二维网格数据
- 时间卷积网络：因果卷积、空洞卷积

Dropout 作用（正则化）
- 近似 Bagging，但不同网络共享参数
- 减少神经元共适应关系，更加泛化
RNN 中的 Dropout
- 前馈连接：t => t，循环连接：t => t+1
- 直观思路：Dropout 前馈连接，但效果不理想，因为大量参数在循环连接
- 基于变分推理的 Dropout：所有时刻的循环连接上，采用相同的丢弃方法
- Zoneout

长期依赖问题

LSTM
- 输入门 $i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)$ ，当前状态，多大程度更新到记忆单元中
- 遗忘门 $f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)$ ，之前记忆单元中的信息，多大程度被遗忘掉
- 输出门 $o_t=\sigma(W_o x_t+U_o h_{t-1}+b_o)$ ，当前输出，多大程度取决于当前记忆单元
- 内部记忆单元 $\tilde c_t=\tanh(W_cx_t+U_ch_{t-1})$ ，于是 $c_t=f_t\odot c_{t-1}+i_t\odot \tilde c_t$
- $h_t=o_t\odot \tanh(c_t)$
GRU（用更新门 $z_t$ 实现遗忘+记忆）
- 重置门 $r_t=\sigma(W_rx_t+U_rh_{t-1})$ ，先前是否被忽略
- 更新门 $z_t=\sigma(W_zx_t+U_fz_{t-1})$ ，当前是否被更新
- $\tilde h_t=\tanh(W_hx_t+U_h(r_t\odot h_{t-1}))$ ，于是 $h_t=(1-z_t)h_{t-1}+z_t \tilde h_t$

机器翻译、语音识别、自动对话

Last updated 3 years ago

2.1 RNN 与序列建模 **

RNN 结构

CNN 对序列建模

2.2 RNN 中的 Dropout ***

Dropout 作用（正则化）

RNN 中的 Dropout

2.4 长短期记忆网络 LSTM ****

长期依赖问题

LSTM

输入门 $i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)$ ，当前状态，多大程度更新到记忆单元中
遗忘门 $f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)$ ，之前记忆单元中的信息，多大程度被遗忘掉
输出门 $o_t=\sigma(W_o x_t+U_o h_{t-1}+b_o)$ ，当前输出，多大程度取决于当前记忆单元
内部记忆单元 $\tilde c_t=\tanh(W_cx_t+U_ch_{t-1})$ ，于是 $c_t=f_t\odot c_{t-1}+i_t\odot \tilde c_t$
$h_t=o_t\odot \tanh(c_t)$

GRU（用更新门 $z_t$ 实现遗忘+记忆）

重置门 $r_t=\sigma(W_rx_t+U_rh_{t-1})$ ，先前是否被忽略
更新门 $z_t=\sigma(W_zx_t+U_fz_{t-1})$ ，当前是否被更新
$\tilde h_t=\tanh(W_hx_t+U_h(r_t\odot h_{t-1}))$ ，于是 $h_t=(1-z_t)h_{t-1}+z_t \tilde h_t$