1. 特征工程

1.1 特征归一化 *

Normalization

数值类型特征,归一化,统一到大致相同的数值区间内

  • min-max scaling:Xnorm=XXminXmaxXminX_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}

  • z-score scaling:z=xμσz=\frac{x-\mu}{\sigma}

e.g. 随机梯度下降,不同特征更新速度一致,更快找到最优解

  • 需要:线性回归、LR、SVM、NN

  • 不需要:决策树

1.2 类别型特征 **

Categorical Feature

  • 序号编码 (Ordinal Encoding):1-低, 2-中, 3-高

  • 独热编码 (One-hot Encoding):稀疏向量; 特征选择降维

    • 高维度问题:KNN 高维距离难以衡量; LR 容易过拟合; 部分维度有帮助

  • 二进制编码 (Binary Encoding)

  • 其他:Helmert Contrast, Sum Contrast, Polynomial Contrast, Backward Difference Contrast

1.3 高维组合特征的处理 **

一阶离散特征 两两组合,提高复杂关系的拟合能力,m×nm\times n

ID 类型的特征,将用户和物品分别用 k 维向量表示,等价于 矩阵分解m×k+n×km\times k+n\times k

1.4 组合特征 **

基于 决策树 的特征组合寻找方法,每条根到叶 路径 看成一种特征组合的方式

可以采用 梯度提升决策树 (GBDT)

1.5 文本表示模型 **

  • 词袋模型和 N-gram 模型

    • 词袋模型:文章表示成长向量,每一维代表一个单词,权重使用 TF-IDF

      • TFIDF(t,d)=TF(t,d)×IDF(t)TF-IDF(t,d)=TF(t,d)\times IDF(t)

      • IDF(t)=log文章总数包含单词t的文章总数+1IDF(t)=\log\frac{文章总数}{包含单词t的文章总数+1}

    • N-gram:连续出现的 n 个词组成的词组

    • 词干抽取 (word stemming):不同词性的单词统一为词干

  • 主题模型:发现代表性主题,计算文章的主题分布

  • 词嵌入与深度学习模型

    • 词嵌入:每个词都映射为低维空间 (K=50-300) 上的 稠密向量,维度看作 隐含主题

    • 深度学习:CNN/RNN 更好地对文本建模,抽取高层语义特征

      • 与全连接 NN 相比:减少参数,提高训练速度,降低过拟合风险

1.6 Word2Vec ***

  • CBOW 上下文预测当前,Skip-gram 当前预测上下文

    • 输入层 (Input):one-hot encoding,N 维向量

    • 映射层 (Projection):K 个 hidden units,使用 N×KN\times K 维权重矩阵计算得到

    • 输出层 (Output):N 维向量,K×NK\times N 维权重矩阵,softmax 计算生成概率

  • 训练网络权重:由于 softmax 归一化,需要对所有单词 遍历

    • Hierarchical Softmax:输出层词通过 Huffman 树编码,O(n)O(logn)O(n)\rightarrow O(logn)

    • Negative Sampling:随机选择一小部分的 negative words

  • Word2vec 与 LDA 的区别和联系

    • LDA:利用文档单词共现关系来对单词按主题聚类,文档-单词 -> 文档-主题 + 主题-单词

    • Word2vec:上下文-单词 矩阵进行学习

    • LDA 是基于概率图模型的生成式模型,Word2vec 是神经网络

1.7 图像数据不足时的处理方法 **

  • 模型提供的信息:训练数据先验信息

    • 先验信息作用在模型:内在结构、条件假设、约束条件

    • 先验信息作用在数据集:调整、变换、扩展训练数据

  • 训练数据不足 => 过拟合

    • 基于模型:简化模型、约束项、集成学习、Dropout

    • 基于数据:数据扩充 (Data Augmentation)

      • 旋转、平移、缩放、裁剪、填充、左右旋转

      • 噪声干扰、颜色变换、亮度、清晰度、对比度、锐度

  • 其他方法:SMOTE、生成模型、迁移学习 (fine-tune)

Last updated