2. 模型评估

2.1 评估指标的局限性 *

  • Accuracy 的局限性:imbalance,平均准确率 / AUC

  • Precision / Recall 的权衡:P-R Curve, F1=2PRP+RF1=\frac{2PR}{P+R}

  • RMSE:outlier (过滤噪声 / 提高预测能力 / MAPE)

2.2 ROC 曲线 *

FPR=FPNFPR=\frac{FP}{N}, TPR=TPPTPR=\frac{TP}{P}

  • ROC 曲线对 imbalance 不敏感,用于 排序、推荐、广告

  • P-R 曲线直观反映 特定数据集 上的表现

2.3 余弦距离的应用 ***

余弦相似度 cos(A,B)=ABA2B2cos(A,B)=\frac{A\cdot B}{||A||_2||B||_2}

余弦距离 dist(A,B)=1cosθ=A2B2ABA2B2dist(A,B)=1-\cos\theta=\frac{||A||_2||B||_2-A\cdot B}{||A||_2||B||_2}

  • 使用 余弦相似度 而不是 Euclidian距离

    • 长度不同、内容相近的文本,Euclidian 大,cos 小

    • 高维情况下,cos 保持性质,Euclidian 范围不固定且含义模糊

    • Euclidian 体现数值绝对差异,cos 体现方向相对差异

  • cos 是否是严格定义的距离

    • 不是,满足 正定性 和 对称性,但不满足 三角不等式

    • 此外,KL散度(相对熵)不满足 对称性 和 三角不等式

2.4 A/B 测试的陷阱 *

  • 为什么 离线评估 后,需要 在线 A/B 测试

    • 离线评估无法完全消除 over-fitting 影响

    • 离线评估无法完全还原线上的工程环境:延迟 / 丢失 / 缺失

    • 线上系统某些商业指标无法离线计算:点击率 / 留存时长 / PV

  • 用户分桶:独立性、采样无偏性

2.5 模型评估的方法 ***

  • Holdout:结果与原始分组有很大关系

  • Cross Validation:k-fold, Leave-one-out

  • Bootstrap:对于总体 n,有放回抽取 n 次

    • 当 n 趋于无穷大,limn(11n)n=1e0.368\lim_{n\rightarrow\infty}(1-\frac1n)^n=\frac1e\approx0.368

2.6 超参数调节 ***

目标函数、搜索范围、其他参数

  • Grid Search

  • Random Search

  • Bayesian Optimization:可能陷入 local minimum

2.7 过拟合和欠拟合 **

  • 降低 over-fitting 风险的方法

    • 更多的数据:收集样本、data augmentation

    • 降低模型复杂度

    • 正则化方法

    • 集成学习方法:Bagging

  • 降低 under-fitting 风险的方法

    • 添加新特征:上下文 / ID / 组合

    • 增加模型复杂度

    • 减小正则化系数

Last updated