2. 进化之路
1. 演化关系图

2. 协同过滤 CF
UserCF (社交特性, 新闻推荐 & 及时热点)
用户相似度: 余弦相似度、pearson、引入物品平均分
结果的排序: top k 相似用户 => 加权平均 Ru,p=∑s∈Swu,s∑s∈S(wu,s⋅Rs,p)
缺点: a. 相似度矩阵 O(n2), b. 用户行为稀疏
ItemCF (兴趣稳定, 风格/类型相似)
相似度: Ru,p=∑h∈H(wp,h⋅Ru,h)
后续发展
泛化能力较弱,头部效应明显 => 矩阵分解 (隐含兴趣/特征)
无法引入 U,I,C 特征信息 => 逻辑回归
3. 矩阵分解 MF
算法: 共现矩阵 Rm,n=用户矩阵 Um,k×物品矩阵 Vk,n
预估评分: r^ui=qiTpu
k 越大,表达能力强,泛化能力弱,求解复杂度高
求解
特征值分解: 要求方阵
奇异值分解: 要求矩阵稠密, O(mn2)
梯度下降: minq∗,p∗∑(u,i)∈K(rui−qiTpu)2+λ(∣∣qi∣∣2+∣∣pu∣∣2)
消除 UI 打分偏差
偏差向量: rui=μ+bi+bu+qiTpu
目标函数: minq∗,p∗,b∗∑(u,i)∈K(rui−μ−bu−bi−qiTpu)2+λ(∣∣qi∣∣2+∣∣pu∣∣2+bu2+bi2)
优点
泛化能力强,解决数据稀疏问题
空间复杂度低,O(n2)→O((n+m)×k)
扩展性/灵活性,类似 Embedding 思想,便于结合 NN
局限
无法引入 U,I,C 特征信息
冷启动,无法有效推荐
4. 逻辑回归 LR
问题: CTR 预估
模型: f(x)=1+e−(wx+b)1
训练: J(w)=−m1∑i=1m(yilogfw(xi)+(1−yi)log(1−fw(xi)))
优点
融合不同特征,全面的推荐结果
数学含义支撑,GLM 伯努利分布
可解释性强
工程化的需要
局限
表达能力不强
无法进行特征交叉、特征筛选
5. FM、FFM
POLY2
模型: POLY2(w,x)=∑j1=1n−1∑j2=j1+1nwh(j1,j2)xj1xj2
缺陷
one-hot 编码稀疏,特征交叉更加稀疏,大部分交叉特征无法收敛
参数量 O(n)→O(n2)
FM
模型: FM(w,x)=∑j1=1n−1∑j2=j1+1n(wj1⋅wj2)xj1xj2
FM 为每个特征学习了一个 "隐权重向量" => 内积作为权重
优点
参数量/训练复杂度 O(n2)→O(nk)
解决数据稀疏性问题,泛化能力提高 (虽然降低精确记忆能力)
梯度下降,容易部署
FFM
field-aware: 特征域感知 (一组 one-hot 特征向量)
模型: FFM(w,x)=∑j1=1n−1∑j2=j1+1n(wj1,f2⋅wj2,f1)xj1xj2
复杂度: O(kn2) > FM
6. GBDT+LR
GBDT 特征转换
决策树深度 => 特征交叉阶数
容易过拟合,丢失数值信息,效果不一定比 FFM 好
开启趋势
特征工程模型化,端到端
网络结构、Embedding 层

7. LS-PLM
模型结构
Large Scale Piece-wise Linear Model: 大规模分段线性模型
MLR, Mixed Logistic Regression, 混合逻辑回归
模型: f(x)=∑i=1mπi(x)⋅ηi(x)=∑i=1m∑j=1meμj⋅xeμi⋅x⋅1+e−wi⋅x1
思想
样本聚类分片: softmax 多分类, m = 12
LR CTR 预估
优点
端到端的非线性学习能力,全局模型 => 不同 应用领域/业务场景
模型的稀疏性增强 (L1),部署更加轻量级
可以看作,加入了 attention 机制的 3-layer NN
8. 总结
矩阵分解,隐向量思想,Embedding
FM,特征交叉,深度学习模型
LS-PLM,三层神经网络
GBDT,特征工程模型化
Last updated