machine-learning
  • Welcome
  • 动手学深度学习
    • 1. 前言
    • 2. 预备知识
    • 3. 线性神经网络
    • 4. 多层感知机
    • 5. 深度学习计算
    • 6. 卷积神经网络
    • 7. 现代卷积神经网络
    • 8. 循环神经网络
    • 9. 现代循环神经网络
    • 10. 注意力机制
    • 11. 优化算法
    • 12. 计算性能
    • 13. 计算机视觉
    • 14. 自然语言处理:预训练
    • 15. 自然语言处理:应用
    • 16. 附录:深度学习工具
  • 百面机器学习
    • 1. 特征工程
    • 2. 模型评估
    • 3. 经典算法
    • 4. 降维
    • 5. 非监督学习
    • 6. 概率图模型
    • 7. 优化算法
    • 8. 采样
    • 9. 前向神经网络
    • 10. 循环神经网络
    • 11. 强化学习
    • 12. 集成学习
    • 13. 生成式对抗网络
    • 14. 人工智能的热门应用
  • 百面深度学习
    • 1. 卷积神经网络 CNN
    • 2. 循环神经网络 RNN
    • 3. 图神经网络 GNN
    • 4. 生成模型
    • 5. 生成式对抗网络 GAN
    • 6. 强化学习 RL
    • 7. 元学习
    • 8. 自动化机器学习 AutoML
    • 9. 计算机视觉 CV
    • 10. 自然语言处理 NLP
    • 11. 推荐系统
    • 12. 计算广告
    • 13. 视频处理
    • 14. 计算机听觉
    • 15. 自动驾驶
  • 统计学习方法
  • 推荐系统实践
    • 1. 推荐系统
    • 2. 特征工程
    • 3. Embedding
    • 4. 精排
    • 5. 召回
    • 6. 粗排/重排
    • 7. 多任务/多场景
    • 8. 冷启动
    • 9. 评估调试
    • 10. 自我修养
  • 深度学习推荐系统
    • 1. 推荐系统
    • 2. 进化之路
    • 3. 深度学习的应用
    • 4. Embedding
    • 5. 多角度审视
    • 6. 工程实现
    • 7. 评估方法
    • 8. 前沿实践
    • 9. 知识框架
  • 强化学习的数学原理
    • 1. 基础概念
    • 2. 贝尔曼公式
    • 3. 贝尔曼最优公式
    • 4. 值迭代与策略迭代
    • 5. 蒙特卡洛方法
    • 6. 随机近似与随机梯度下降
    • 7. 时序差分方法
    • 8. 值函数近似
    • 9. 策略梯度方法
    • 10. Actor-Critic方法
Powered by GitBook
On this page
  • 3.1 线性回归
  • 3.2 Softmax回归
  • 3.3 损失函数
  • 3.4 图像分类数据集
  1. 动手学深度学习

3. 线性神经网络

Previous2. 预备知识Next4. 多层感知机

Last updated 2 years ago

3.1 线性回归

  • 模型:y^=Xw{\hat{\mathbf{y}}}=\mathbf{X}\mathbf{w}y^​=Xw

  • 损失函数:l(X,y,w)=12n∥y−Xw∥2l(\textbf{X},\textbf{y},\textbf{w})=\frac{1}{2n}\|\textbf{y}-\textbf{Xw}\|^2l(X,y,w)=2n1​∥y−Xw∥2

  • 显式解:w∗=(XTX)−1Xyw^*=(\textbf{X}^T\textbf{X})^{-1}\textbf{Xy}w∗=(XTX)−1Xy

  • 梯度下降(gradient descent)

    • 小批量(mini-batch)梯度下降

    • 超参数:批量大小,学习率

3.2 Softmax回归

  • softmax:y^=softmax(o),y^i=exp(oi)∑kexp(oi)\hat{\textbf{y}}=softmax(\textbf{o}), \hat{y}_i=\frac{exp(o_i)}{\sum_k exp(o_i)}y^​=softmax(o),y^​i​=∑k​exp(oi​)exp(oi​)​

  • 交叉熵(概率区别):H(p,q)=∑i−pilog(qi)H(\textbf{p}, \textbf{q})=\sum_i -p_ilog(q_i)H(p,q)=∑i​−pi​log(qi​)

  • 损失函数:l(y,y^)=−∑iyilogy^il(\textbf{y},\hat{\textbf{y}})=-\sum_i y_i log\hat{y}_il(y,y^​)=−∑i​yi​logy^​i​

3.3 损失函数

蓝色:损失函数;绿色:似然函数;橙色:梯度

3.4 图像分类数据集

L2 Loss(均方损失,MSE): l(y,y′)=12(y−y′)2l(y,y')=\frac12(y-y')^2l(y,y′)=21​(y−y′)2

L1 Loss(绝对损失,MAE): l(y,y′)=∣y−y′∣l(y,y')=|y-y'|l(y,y′)=∣y−y′∣

Huber‘s Robust Loss:l(y,y′)={∣y−y′∣−12,if∣y−y′∣>112(y−y′)2,otherwisel(y,y')=\begin{cases}|y-y'|-\frac12, &if |y-y'|>1\\ \frac12(y-y')^2, &otherwise\end{cases}l(y,y′)={∣y−y′∣−21​,21​(y−y′)2,​if∣y−y′∣>1otherwise​

3.2. 线性回归的从零开始实现
3.3. 线性回归的简洁实现
3.6. softmax回归的从零开始实现
3.7. softmax回归的简洁实现