3. 深度学习的应用

1. 演化关系图

基本原理: AutoEncoder，评分矩阵
模型结构 (I-AutoRec)
- 重建函数: $h(\mathbf{r};\theta)=f(\mathbf{W}\cdot g(\mathbf{Vr}+\mu)+b)$
- 目标函数: $\min_\theta \sum_{i=1}^n ||\mathbf{r}^{(i)}-h(\mathbf{r}^{(i)};\theta)||_{\mathcal{O}}^2+\frac\lambda2 \cdot(||\mathbf{W}||_F^2+||\mathbf{V}||_F^2)$
推荐过程 (I-AutoRec)
- 评分预测: $\hat R_{ui}=(h(\mathbf r^{(i)};\hat\theta))_u$
- 遍历输入物品向量，得到用户 u 对所有物品的评分预测，排序得到推荐列表
- U-AutoRec
  - 优势: 仅需输入一次用户向量，得到所有物品的评分向量
  - 劣势: 用户向量的稀疏性，影响模型效果
特点局限
- NN 角度: 单隐层 AutoEncoder，泛化和表达能力，但比较简单
- 模型结构: 结构与 Word2vec 一致，但优化目标和训练方法不同
- 深度学习: 拉开序幕

应用场景: 微软 Bing 搜索广告
- 类别型特征: 用户搜索词、广告关键词、广告标题、落地页、匹配类型
- 数值型特征: 点击率、预估点击率
- 需处理特征: 广告计划 (e.g. budget / id)、曝光样例、点击样例
网络结构
- 解决问题: 稀疏特征、特征自动交叉组合、输出层优化目标
- Embedding: 稀疏类别特征 -> 稠密 Embedding 向量，FC 层
- Stacking: 拼接，即 concatnaate 层
- Multiple Residual Units: MLP，残差链接
- Scoring: sigmoid / softmax
革命意义: 没有特征工程、特征深度交叉

Last updated 2 years ago

基本原理: AutoEncoder，评分矩阵
模型结构 (I-AutoRec)
- 重建函数: $h(\mathbf{r};\theta)=f(\mathbf{W}\cdot g(\mathbf{Vr}+\mu)+b)$
- 目标函数: $\min_\theta \sum_{i=1}^n ||\mathbf{r}^{(i)}-h(\mathbf{r}^{(i)};\theta)||_{\mathcal{O}}^2+\frac\lambda2 \cdot(||\mathbf{W}||_F^2+||\mathbf{V}||_F^2)$
推荐过程 (I-AutoRec)
- 评分预测: $\hat R_{ui}=(h(\mathbf r^{(i)};\hat\theta))_u$
- 遍历输入物品向量，得到用户 u 对所有物品的评分预测，排序得到推荐列表
- U-AutoRec
  - 优势: 仅需输入一次用户向量，得到所有物品的评分向量
  - 劣势: 用户向量的稀疏性，影响模型效果
特点局限
- NN 角度: 单隐层 AutoEncoder，泛化和表达能力，但比较简单
- 模型结构: 结构与 Word2vec 一致，但优化目标和训练方法不同
- 深度学习: 拉开序幕

应用场景: 微软 Bing 搜索广告
- 类别型特征: 用户搜索词、广告关键词、广告标题、落地页、匹配类型
- 数值型特征: 点击率、预估点击率
- 需处理特征: 广告计划 (e.g. budget / id)、曝光样例、点击样例
网络结构
- 解决问题: 稀疏特征、特征自动交叉组合、输出层优化目标
- Embedding: 稀疏类别特征 -> 稠密 Embedding 向量，FC 层
- Stacking: 拼接，即 concatnaate 层
- Multiple Residual Units: MLP，残差链接
- Scoring: sigmoid / softmax
革命意义: 没有特征工程、特征深度交叉

网络架构: Deep Crossing 中的 Stacking -> Product Layer
Product: 线性操作部分 + 乘积操作部分
- 内积 IPNN: $g_{inner}(f_i,f_j)=<f_i,f_j>$
- 外积 OPNN: $g_{outer}(f_i,f_j)=f_if_j^T$ 生成 $M\times M$ 方形矩阵
叠加外积互操作: $\mathbf p=\sum_{i=1}^N \sum_{j=1}^N g_{outer}(f_i,f_j)=\sum_{i=1}^N \sum_{j=1}^N f_if_j^T=f_\Sigma f_\Sigma^T$
- 所有特征 Embedding 向量，平均池化后，外积互操作
- 平均池化，应该谨慎对待，容易模糊信息，经常在同类上
优点: 强调 Embedding 向量之间的交互方式是多样性的
局限: 外积进行了大量简化，无差别特征交叉