3. 线性神经网络

3.1 线性回归

模型： ${\hat{\mathbf{y}}}=\mathbf{X}\mathbf{w}$
损失函数： $l(\textbf{X},\textbf{y},\textbf{w})=\frac{1}{2n}\|\textbf{y}-\textbf{Xw}\|^2$
显式解： $w^*=(\textbf{X}^T\textbf{X})^{-1}\textbf{Xy}$
梯度下降（gradient descent）
- 小批量（mini-batch）梯度下降
- 超参数：批量大小，学习率

softmax： $\hat{\textbf{y}}=softmax(\textbf{o}), \hat{y}_i=\frac{exp(o_i)}{\sum_k exp(o_i)}$
交叉熵（概率区别）： $H(\textbf{p}, \textbf{q})=\sum_i -p_ilog(q_i)$
损失函数： $l(\textbf{y},\hat{\textbf{y}})=-\sum_i y_i log\hat{y}_i$

蓝色：损失函数；绿色：似然函数；橙色：梯度

Last updated 2 years ago

3.1 线性回归

模型： ${\hat{\mathbf{y}}}=\mathbf{X}\mathbf{w}$

损失函数： $l(\textbf{X},\textbf{y},\textbf{w})=\frac{1}{2n}\|\textbf{y}-\textbf{Xw}\|^2$

显式解： $w^*=(\textbf{X}^T\textbf{X})^{-1}\textbf{Xy}$

梯度下降（gradient descent）

3.2 Softmax回归

softmax： $\hat{\textbf{y}}=softmax(\textbf{o}), \hat{y}_i=\frac{exp(o_i)}{\sum_k exp(o_i)}$

交叉熵（概率区别）： $H(\textbf{p}, \textbf{q})=\sum_i -p_ilog(q_i)$

损失函数： $l(\textbf{y},\hat{\textbf{y}})=-\sum_i y_i log\hat{y}_i$

3.3 损失函数

蓝色：损失函数；绿色：似然函数；橙色：梯度

L2 Loss（均方损失，MSE）： $l(y,y')=\frac12(y-y')^2$

L1 Loss（绝对损失，MAE）： $l(y,y')=|y-y'|$

Huber‘s Robust Loss： $l(y,y')=\begin{cases}|y-y'|-\frac12, &if |y-y'|>1\\ \frac12(y-y')^2, &otherwise\end{cases}$