12. 计算广告

12.1 点击率评估 CTR

1. 因子分解机模型(FM、FFM、Deep FM)**

  • 特征(大部分为类别)

    • 类别:用户特征、广告特征、上下文特征

    • 特点:高维稀疏,需要交叉特征

  • 因子分解机 FM(特征交叉)

    • y^FM(x)=μ+w,x+i=1nj=i+1nvi,vjxixj\hat y_{FM}(x)=\mu+\langle w,x\rangle+\sum_{i=1}^n \sum_{j=i+1}^n \langle v_i,v_j \rangle x_i x_j

    • 一阶 特征交叉项 + 二阶 特征交叉项

    • 每维特征学习一个 低维 embedding,减少模型参数

  • 域感知因子分解机 FFM(特征域)

    • y^FFM(x)=μ+w,x+i=1nj=i+1nv(i,fj),v(j,fi)xixj\hat y_{FFM}(x)=\mu+\langle w,x\rangle+\sum_{i=1}^n \sum_{j=i+1}^n \langle v_{(i,f_j)},v_{(j,f_i)} \rangle x_i x_j

    • 参数量(输入维度 n,m 个特征域,嵌入维度 k):n+n(m1)kn+n(m-1)k

    • 降低参数量:域加权因子分解机(FwFM)

      • y^FwFM=μ+w,x+i=1nj=i+1nvi,vjxixjr(fi,fj)\hat y_{FwFM}=\mu+\langle w,x\rangle+\sum_{i=1}^n \sum_{j=i+1}^n \langle v_i,v_j \rangle x_i x_j r_{(f_i,f_j)}

      • 其中,r(fi,fj)r_{(f_i,f_j)} 是特征域之间的交叉权重系数,n+nk+m(m1)2n+nk+\frac{m(m-1)}{2}

  • 深度因子分解机 DeepFM(高阶特征交叉)

    • y^out=Sigmoid(y^FM+y^DNN)\hat y_{out}=Sigmoid(\hat y_{FM}+ \hat y_{DNN})

2. 深度兴趣网络 DIN ***

  • 用户兴趣多样性:大多模型,单峰兴趣特征

  • DIN:可以只关心与 该广告 相关的用户历史行为

3. 多臂老虎机 解决 冷启动 ***

  • 冷启动问题:新广告、长尾广告,没有准确的 CTR 预估

  • 多臂老虎机(RL 的简化版本)

    • 置信区间上界(UCB)算法:选择 UCB 最大的臂

    • Thompson 采样算法:每个臂的收益分布,建模为 Beta 分布

    • LinUCB:考虑上下文信息,维护 特征矩阵(臂的期望收益)

12.2 提高搜索广告召回 ****

  • 基于 点击数据深度语义模型(DSSM)

    • 基本思想:将 query 和 documents(广告) 映射到同一个低维空间,然后计算 cos 相似性

    • 正样本:用户点击过的广告

    • 通过 语义相似性,召回部分广告,增加广告召回率(准确率)

12.3 广告投放策略

带约束的优化问题

1. 实时竞价场景中,指定广告主的出价策略是什么问题?*

  • 在预算约束下,最大化广告效果

2. 基于 RL 的竞价策略 ****

  • 请求特征 x,市场价格分布 m(δ;x)m(\delta;x),其中 δ\delta 是第二高竞价,预测点击率 θ(x)\theta(x),剩余竞价机会 t,剩余预算 b

  • 价值函数 V(t,b)=V(t1,b)+δ=0a(xtm(δ;xt)θ(xt)px(xt)dx+m(δ)(V(t1,bδ)V(t1,b)))V(t,b)=V(t-1,b)+\sum_{\delta=0}^a (\int_{x_t} m(\delta;x_t)\theta(x_t)p_x(x_t)dx+m(\delta)(V(t-1,b-\delta)-V(t-1,b)))

3. 基于 深度RL 的竞价策略 ***

  • 减少行动可选范围:出价策略设计为 a=λθ(x)a=\lambda \theta(x),行动只有 减小 / 增加 λ\lambda

  • 收益函数反映总收益:分成若干回合(episode),有固定竞价次数和预算限制

Last updated