2. 模型评估
2.1 评估指标的局限性 *
Accuracy 的局限性:imbalance,平均准确率 / AUC
Precision / Recall 的权衡:P-R Curve,
RMSE:outlier (过滤噪声 / 提高预测能力 / MAPE)
2.2 ROC 曲线 *
,
ROC 曲线对 imbalance 不敏感,用于 排序、推荐、广告
P-R 曲线直观反映 特定数据集 上的表现
2.3 余弦距离的应用 ***
余弦相似度
余弦距离
使用 余弦相似度 而不是 Euclidian距离
长度不同、内容相近的文本,Euclidian 大,cos 小
高维情况下,cos 保持性质,Euclidian 范围不固定且含义模糊
Euclidian 体现数值绝对差异,cos 体现方向相对差异
cos 是否是严格定义的距离
不是,满足 正定性 和 对称性,但不满足 三角不等式
此外,KL散度(相对熵)不满足 对称性 和 三角不等式
2.4 A/B 测试的陷阱 *
为什么 离线评估 后,需要 在线 A/B 测试
离线评估无法完全消除 over-fitting 影响
离线评估无法完全还原线上的工程环境:延迟 / 丢失 / 缺失
线上系统某些商业指标无法离线计算:点击率 / 留存时长 / PV
用户分桶:独立性、采样无偏性
2.5 模型评估的方法 ***
Holdout:结果与原始分组有很大关系
Cross Validation:k-fold, Leave-one-out
Bootstrap:对于总体 n,有放回抽取 n 次
当 n 趋于无穷大,
2.6 超参数调节 ***
目标函数、搜索范围、其他参数
Grid Search
Random Search
Bayesian Optimization:可能陷入 local minimum
2.7 过拟合和欠拟合 **
降低 over-fitting 风险的方法
更多的数据:收集样本、data augmentation
降低模型复杂度
正则化方法
集成学习方法:Bagging
降低 under-fitting 风险的方法
添加新特征:上下文 / ID / 组合
增加模型复杂度
减小正则化系数
Last updated