machine-learning
  • Welcome
  • 动手学深度学习
    • 1. 前言
    • 2. 预备知识
    • 3. 线性神经网络
    • 4. 多层感知机
    • 5. 深度学习计算
    • 6. 卷积神经网络
    • 7. 现代卷积神经网络
    • 8. 循环神经网络
    • 9. 现代循环神经网络
    • 10. 注意力机制
    • 11. 优化算法
    • 12. 计算性能
    • 13. 计算机视觉
    • 14. 自然语言处理:预训练
    • 15. 自然语言处理:应用
    • 16. 附录:深度学习工具
  • 百面机器学习
    • 1. 特征工程
    • 2. 模型评估
    • 3. 经典算法
    • 4. 降维
    • 5. 非监督学习
    • 6. 概率图模型
    • 7. 优化算法
    • 8. 采样
    • 9. 前向神经网络
    • 10. 循环神经网络
    • 11. 强化学习
    • 12. 集成学习
    • 13. 生成式对抗网络
    • 14. 人工智能的热门应用
  • 百面深度学习
    • 1. 卷积神经网络 CNN
    • 2. 循环神经网络 RNN
    • 3. 图神经网络 GNN
    • 4. 生成模型
    • 5. 生成式对抗网络 GAN
    • 6. 强化学习 RL
    • 7. 元学习
    • 8. 自动化机器学习 AutoML
    • 9. 计算机视觉 CV
    • 10. 自然语言处理 NLP
    • 11. 推荐系统
    • 12. 计算广告
    • 13. 视频处理
    • 14. 计算机听觉
    • 15. 自动驾驶
  • 统计学习方法
  • 推荐系统实践
    • 1. 推荐系统
    • 2. 特征工程
    • 3. Embedding
    • 4. 精排
    • 5. 召回
    • 6. 粗排/重排
    • 7. 多任务/多场景
    • 8. 冷启动
    • 9. 评估调试
    • 10. 自我修养
  • 深度学习推荐系统
    • 1. 推荐系统
    • 2. 进化之路
    • 3. 深度学习的应用
    • 4. Embedding
    • 5. 多角度审视
    • 6. 工程实现
    • 7. 评估方法
    • 8. 前沿实践
    • 9. 知识框架
  • 强化学习的数学原理
    • 1. 基础概念
    • 2. 贝尔曼公式
    • 3. 贝尔曼最优公式
    • 4. 值迭代与策略迭代
    • 5. 蒙特卡洛方法
    • 6. 随机近似与随机梯度下降
    • 7. 时序差分方法
    • 8. 值函数近似
    • 9. 策略梯度方法
    • 10. Actor-Critic方法
Powered by GitBook
On this page
  • 3.1 支持向量机 ****
  • 1. 空间上线性可分的两类点,在超平面上的投影,仍然是线性可分的吗?***
  • 2. 是否存在一组参数使 SVM 训练误差为 0?***
  • 3. 训练误差为 0 的 SVM 分类器一定存在吗?****
  • 4. 加入松弛变量的 SVM 训练误差可以为 0 吗?***
  • 3.2 逻辑回归 ***
  • 3.3 决策树 ***
  1. 百面机器学习

3. 经典算法

Previous2. 模型评估Next4. 降维

Last updated 3 years ago

3.1 支持向量机 ****

1. 空间上线性可分的两类点,在超平面上的投影,仍然是线性可分的吗?***

  • 一定是 线性不可分 的,因为 SVM 的分类结果仅依赖支持向量

  • 超平面分离定理(SHT): 对于不相交的两个凸集,存在超平面分离

    • 凸包上的点:样本点 / 两个样本点的连线,三种情况都线性不可分

2. 是否存在一组参数使 SVM 训练误差为 0?***

  • 使用高斯核,若不存在两个点在同一位置,存在一组参数,使得 SVM 训练误差为 0

    • 高斯核 K(x,z)=e−∣∣x−z∣∣2/γ2K(x,z)=e^{-||x-z||^2/\gamma^2}K(x,z)=e−∣∣x−z∣∣2/γ2

    • 预测公式 f(x)=∑i=1mαiy(i)K(x(i),x)+bf(x)=\sum_{i=1}^{m}\alpha_i y^{(i)}K(x^{(i)},x)+bf(x)=∑i=1m​αi​y(i)K(x(i),x)+b

    • 固定 α=1,b=0\alpha_=1, b=0α=​1,b=0,可证 ∣∣f(x(j))−y(j)∣∣<1||f(x^{(j)})-y^{(j)}||<1∣∣f(x(j))−y(j)∣∣<1

3. 训练误差为 0 的 SVM 分类器一定存在吗?****

  • 问题2 的参数,训练误差为 0,但不一定是满足 SVM 条件的解

    • 不加入松弛变量,能否保持得到的 SVM 训练误差为 0?

    • 能,仍然固定 b=0b=0b=0,每个 αj\alpha_jαj​ 都选择很大的值,同时取非常小的 γ\gammaγ

4. 加入松弛变量的 SVM 训练误差可以为 0 吗?***

  • 不一定,因为优化目标改变了,不再是使训练误差最小

3.2 逻辑回归 ***

  • 相比于线性回归,有何异同

    • 相同:极大似然估计,梯度下降

  • 多标签分类

    • 样本可能属于多个标签:k 个二分类 LR

3.3 决策树 ***

  • 启发函数(从若干决策树中选取最优,是 NP-Complete 问题)

    • ID3 - information gain - 倾向于取值较多的特征(离散 分类)

    • C4.5 - information gain ratio - 惩罚取值过多(离散/连续 分类)

    • CART - gini - 二值划分(离散/连续 分类/回归)

  • 如何剪枝

    • 预剪枝(pre-pruning)max_depth, min_data_in_leaf, min_gain_to_split

    • 后剪枝(post-pruning)泛化能力更强,时间开销更大

      • 错误率降低 REP、悲观 PEP、代价复杂度 CCP、最小误差 MEP、CVP、OPP

C∑i=1mξi+12∣∣w∣∣2C\sum_{i=1}^m \xi_i+\frac{1}{2}||w||^2C∑i=1m​ξi​+21​∣∣w∣∣2,当 C 选取较小的值,正则项占据较大权重

区别:LR 分类,是对数几率 log⁡p1−p\log\frac{p}{1-p}log1−pp​ 的回归,是广义线性模型

样本只对应一个标签(几何分布)softmax(x)=ex∑j=1kexsoftmax(x)=\frac{e^{x}}{\sum_{j=1}^k e^x}softmax(x)=∑j=1k​exex​

经验熵 H(D)=−∑k=1Kpklog⁡pkH(D)=-\sum_{k=1}^K p_k \log p_kH(D)=−∑k=1K​pk​logpk​

信息增益 g(D,A)=H(D)−H(D∣A)g(D,A)=H(D)-H(D|A)g(D,A)=H(D)−H(D∣A)

信息增益比 gR(D,A)=g(D,A)HA(D)g_R(D,A)=\frac{g(D,A)}{H_A(D)}gR​(D,A)=HA​(D)g(D,A)​

Gini(D)=1−∑k=1npk2Gini(D)=1-\sum_{k=1}^n p_k^2Gini(D)=1−∑k=1n​pk2​