3. 线性神经网络

3.1 线性回归

  • 模型:y^=Xw{\hat{\mathbf{y}}}=\mathbf{X}\mathbf{w}

  • 损失函数:l(X,y,w)=12nyXw2l(\textbf{X},\textbf{y},\textbf{w})=\frac{1}{2n}\|\textbf{y}-\textbf{Xw}\|^2

  • 显式解:w=(XTX)1Xyw^*=(\textbf{X}^T\textbf{X})^{-1}\textbf{Xy}

  • 梯度下降(gradient descent)

    • 小批量(mini-batch)梯度下降

    • 超参数:批量大小,学习率

3.2. 线性回归的从零开始实现arrow-up-right

3.3. 线性回归的简洁实现arrow-up-right

3.2 Softmax回归

  • softmax:y^=softmax(o),y^i=exp(oi)kexp(oi)\hat{\textbf{y}}=softmax(\textbf{o}), \hat{y}_i=\frac{exp(o_i)}{\sum_k exp(o_i)}

  • 交叉熵(概率区别):H(p,q)=ipilog(qi)H(\textbf{p}, \textbf{q})=\sum_i -p_ilog(q_i)

  • 损失函数:l(y,y^)=iyilogy^il(\textbf{y},\hat{\textbf{y}})=-\sum_i y_i log\hat{y}_i

3.6. softmax回归的从零开始实现arrow-up-right

3.7. softmax回归的简洁实现arrow-up-right

3.3 损失函数

蓝色:损失函数;绿色:似然函数;橙色:梯度

  • L2 Loss(均方损失,MSE): l(y,y)=12(yy)2l(y,y')=\frac12(y-y')^2

  • L1 Loss(绝对损失,MAE): l(y,y)=yyl(y,y')=|y-y'|

  • Huber‘s Robust Loss:l(y,y)={yy12,ifyy>112(yy)2,otherwisel(y,y')=\begin{cases}|y-y'|-\frac12, &if |y-y'|>1\\ \frac12(y-y')^2, &otherwise\end{cases}

3.4 图像分类数据集

Last updated