2. 进化之路

Last updated 2 years ago

1. 演化关系图

UserCF (社交特性, 新闻推荐 & 及时热点)
- 用户相似度: 余弦相似度、pearson、引入物品平均分
- 结果的排序: top k 相似用户 => 加权平均 $R_{u,p}=\frac{\sum_{s\in S}(w_{u,s}\cdot R_{s,p})}{\sum_{s\in S}w_{u,s}}$
- 缺点: a. 相似度矩阵 $O(n^2)$ , b. 用户行为稀疏
ItemCF (兴趣稳定, 风格/类型相似)
- 相似度: $R_{u,p}=\sum_{h\in H}(w_{p,h}\cdot R_{u,h})$
后续发展
- 泛化能力较弱，头部效应明显 => 矩阵分解 (隐含兴趣/特征)
- 无法引入 U,I,C 特征信息 => 逻辑回归

算法: $共现矩阵\ \mathbf{R}_{m,n}=用户矩阵\ \mathbf{U}_{m,k}\times物品矩阵\ \mathbf{V}_{k,n}$
- 预估评分: $\hat{r}_{ui}=q_i^T p_u$
- k 越大，表达能力强，泛化能力弱，求解复杂度高
求解
- 特征值分解: 要求方阵
- 奇异值分解: 要求矩阵稠密, $O(mn^2)$
- 梯度下降: $\min_{q^*,p^*} \sum_{(u,i)\in K} (r_{ui}-q_i^Tp_u)^2 + \lambda(||q_i||^2+||p_u||^2)$
消除 UI 打分偏差
- 偏差向量: $r_{ui}=\mu+b_i+b_u+q_i^Tp_u$
- 目标函数: $\min_{q^*,p^*,b^*} \sum_{(u,i)\in K} (r_{ui}-\mu-b_u-b_i-q_i^Tp_u)^2 + \lambda(||q_i||^2+||p_u||^2+b_u^2+b_i^2)$
优点
- 泛化能力强，解决数据稀疏问题
- 空间复杂度低， $O(n^2) \rightarrow O((n+m)\times k)$
- 扩展性/灵活性，类似 Embedding 思想，便于结合 NN
局限
- 无法引入 U,I,C 特征信息
- 冷启动，无法有效推荐

POLY2
- 模型: $POLY2(w,x)=\sum_{j_1=1}^{n-1}\sum_{j_2=j_1+1}^{n}w_{h(j_1,j_2)}x_{j_1}x_{j_2}$
- 缺陷
  - one-hot 编码稀疏，特征交叉更加稀疏，大部分交叉特征无法收敛
  - 参数量 $O(n)\rightarrow O(n^2)$
FM
- 模型: $FM(w,x)=\sum_{j_1=1}^{n-1}\sum_{j_2=j_1+1}^{n}(w_{j_1}\cdot w_{j_2})x_{j_1}x_{j_2}$
- FM 为每个特征学习了一个 "隐权重向量" => 内积作为权重
- 优点
  - 参数量/训练复杂度 $O(n^2)\rightarrow O(nk)$
  - 解决数据稀疏性问题，泛化能力提高 (虽然降低精确记忆能力)
  - 梯度下降，容易部署
FFM
- field-aware: 特征域感知 (一组 one-hot 特征向量)
- 模型: $FFM(w,x)=\sum_{j_1=1}^{n-1}\sum_{j_2=j_1+1}^{n}(w_{j_1,f_2}\cdot w_{j_2,f_1})x_{j_1}x_{j_2}$
- 复杂度: $O(kn^2)$ > FM

Last updated 2 years ago

UserCF (社交特性, 新闻推荐 & 及时热点)
- 用户相似度: 余弦相似度、pearson、引入物品平均分
- 结果的排序: top k 相似用户 => 加权平均 $R_{u,p}=\frac{\sum_{s\in S}(w_{u,s}\cdot R_{s,p})}{\sum_{s\in S}w_{u,s}}$
- 缺点: a. 相似度矩阵 $O(n^2)$ , b. 用户行为稀疏
ItemCF (兴趣稳定, 风格/类型相似)
- 相似度: $R_{u,p}=\sum_{h\in H}(w_{p,h}\cdot R_{u,h})$
后续发展
- 泛化能力较弱，头部效应明显 => 矩阵分解 (隐含兴趣/特征)
- 无法引入 U,I,C 特征信息 => 逻辑回归

算法: $共现矩阵\ \mathbf{R}_{m,n}=用户矩阵\ \mathbf{U}_{m,k}\times物品矩阵\ \mathbf{V}_{k,n}$
- 预估评分: $\hat{r}_{ui}=q_i^T p_u$
- k 越大，表达能力强，泛化能力弱，求解复杂度高
求解
- 特征值分解: 要求方阵
- 奇异值分解: 要求矩阵稠密, $O(mn^2)$
- 梯度下降: $\min_{q^*,p^*} \sum_{(u,i)\in K} (r_{ui}-q_i^Tp_u)^2 + \lambda(||q_i||^2+||p_u||^2)$
消除 UI 打分偏差
- 偏差向量: $r_{ui}=\mu+b_i+b_u+q_i^Tp_u$
- 目标函数: $\min_{q^*,p^*,b^*} \sum_{(u,i)\in K} (r_{ui}-\mu-b_u-b_i-q_i^Tp_u)^2 + \lambda(||q_i||^2+||p_u||^2+b_u^2+b_i^2)$
优点
- 泛化能力强，解决数据稀疏问题
- 空间复杂度低， $O(n^2) \rightarrow O((n+m)\times k)$
- 扩展性/灵活性，类似 Embedding 思想，便于结合 NN
局限
- 无法引入 U,I,C 特征信息
- 冷启动，无法有效推荐

POLY2
- 模型: $POLY2(w,x)=\sum_{j_1=1}^{n-1}\sum_{j_2=j_1+1}^{n}w_{h(j_1,j_2)}x_{j_1}x_{j_2}$
- 缺陷
  - one-hot 编码稀疏，特征交叉更加稀疏，大部分交叉特征无法收敛
  - 参数量 $O(n)\rightarrow O(n^2)$
FM
- 模型: $FM(w,x)=\sum_{j_1=1}^{n-1}\sum_{j_2=j_1+1}^{n}(w_{j_1}\cdot w_{j_2})x_{j_1}x_{j_2}$
- FM 为每个特征学习了一个 "隐权重向量" => 内积作为权重
- 优点
  - 参数量/训练复杂度 $O(n^2)\rightarrow O(nk)$
  - 解决数据稀疏性问题，泛化能力提高 (虽然降低精确记忆能力)
  - 梯度下降，容易部署
FFM
- field-aware: 特征域感知 (一组 one-hot 特征向量)
- 模型: $FFM(w,x)=\sum_{j_1=1}^{n-1}\sum_{j_2=j_1+1}^{n}(w_{j_1,f_2}\cdot w_{j_2,f_1})x_{j_1}x_{j_2}$
- 复杂度: $O(kn^2)$ > FM