3. 经典算法
Last updated
Last updated
一定是 线性不可分 的,因为 SVM 的分类结果仅依赖支持向量
超平面分离定理(SHT): 对于不相交的两个凸集,存在超平面分离
凸包上的点:样本点 / 两个样本点的连线,三种情况都线性不可分
使用高斯核,若不存在两个点在同一位置,存在一组参数,使得 SVM 训练误差为 0
高斯核
预测公式
固定 ,可证
问题2 的参数,训练误差为 0,但不一定是满足 SVM 条件的解
不加入松弛变量,能否保持得到的 SVM 训练误差为 0?
能,仍然固定 ,每个 都选择很大的值,同时取非常小的
不一定,因为优化目标改变了,不再是使训练误差最小
相比于线性回归,有何异同
相同:极大似然估计,梯度下降
多标签分类
样本可能属于多个标签:k 个二分类 LR
启发函数(从若干决策树中选取最优,是 NP-Complete 问题)
ID3 - information gain - 倾向于取值较多的特征(离散 分类)
C4.5 - information gain ratio - 惩罚取值过多(离散/连续 分类)
CART - gini - 二值划分(离散/连续 分类/回归)
如何剪枝
预剪枝(pre-pruning)max_depth, min_data_in_leaf, min_gain_to_split
后剪枝(post-pruning)泛化能力更强,时间开销更大
错误率降低 REP、悲观 PEP、代价复杂度 CCP、最小误差 MEP、CVP、OPP
,当 C 选取较小的值,正则项占据较大权重
区别:LR 分类,是对数几率 的回归,是广义线性模型
样本只对应一个标签(几何分布)
经验熵
信息增益
信息增益比