10. 循环神经网络 | machine-learning

machine-learning

10.1 文本数据 RNN 和 CNN *

NN：TF-IDF，丢失顺序
CNN：捕捉局部特征，很难学习长距离依赖
RNN：处理变长&有序，模拟顺序阅读+记忆能力
- 每层 $h_t=f(net_t)=f(Ux_t+Wh_{t-1})$ ，输出 $y=g(Vh_T)$

10.2 RNN 的梯度消失问题 **

BPTT（Back Propagation Through Time，基于时间的反向传播）
- $\frac{\partial net_t}{\partial net_{t-1}}=\frac{\partial net_t}{\partial h{t-1}} \frac{\partial h_{t-1}}{\partial net_{t-1}}=W\cdot diag[f'(net_{t-1})]$ ，称为雅可比矩阵
  - 最大特征值>1，梯度爆炸，梯度裁剪（超过阈值等比收缩）
  - 最大特征值<1，梯度消失，LSTM / GRU

10.3 RNN 能否使用 ReLU ***

可以，但需要限制矩阵初值，否则容易引发数值问题（0 / inf）
- $net_t$ 的表达式中，最终包含 t 个 W 的连乘，因为每层权重相同
- 需要将 W 初始化为 单位矩阵

10.4 长短期记忆网络 LSTM ***

语音识别、语言建模、机器翻译、命名实体识别、图像描述文本生成

结构
激活函数
- sigmoid 输出 0~~1 门控，tanh 输出 -1~~1 分布0中心，这两个函数都是饱和的
- 计算能力有限的设别，使用 0/1门（hard gate）

10.5 Seq2Seq 模型 ***

机器翻译、语音识别、自动对话

思想：输入序列 - 编码 - 解码 - 输出序列
- 机器翻译：输入 A, B, C, [EOS]，输出 W, X, Y, Z
- 文本摘要：输入段落，输出摘要短句
- 图像描述文本生成：输入经过视觉网络的特征，输出描述短句
- 语音识别：输入音频信号，输出文本
核心是解码环节
- 贪心法：局部最优解
- 集束搜素：启发式，每步保留 b 个当前较佳选择，8-12
- 注意力机制
- 记忆网络：从外界获取知识
- 其他：堆叠的 RNN、Dropout 机制、残差连接

10.6 注意力机制 Attention ****

Seq2Seq，随着输入序列的增长，性能下降，输出损失信息
注意力机制，解码时，每个输出依赖于前一个隐状态 + 每一个输入隐状态
- - 在生成一个输出词时，会考虑每个输入词和当前输出词的 对齐关系