1. 特征工程

1.1 特征归一化 *

Normalization

数值类型特征，归一化，统一到大致相同的数值区间内

e.g. 随机梯度下降，不同特征更新速度一致，更快找到最优解

Categorical Feature

序号编码 (Ordinal Encoding)：1-低, 2-中, 3-高
独热编码 (One-hot Encoding)：稀疏向量; 特征选择降维
- 高维度问题：KNN 高维距离难以衡量; LR 容易过拟合; 部分维度有帮助
二进制编码 (Binary Encoding)
其他：Helmert Contrast, Sum Contrast, Polynomial Contrast, Backward Difference Contrast

一阶离散特征 两两组合，提高复杂关系的拟合能力， $m\times n$

ID 类型的特征，将用户和物品分别用 k 维向量表示，等价于 矩阵分解， $m\times k+n\times k$

基于 决策树 的特征组合寻找方法，每条根到叶路径看成一种特征组合的方式

可以采用 梯度提升决策树 (GBDT)

词袋模型和 N-gram 模型
- 词袋模型：文章表示成长向量，每一维代表一个单词，权重使用 TF-IDF
  - $TF-IDF(t,d)=TF(t,d)\times IDF(t)$
  - $IDF(t)=\log\frac{文章总数}{包含单词t的文章总数+1}$
- N-gram：连续出现的 n 个词组成的词组
- 词干抽取 (word stemming)：不同词性的单词统一为词干
主题模型：发现代表性主题，计算文章的主题分布
词嵌入与深度学习模型
- 词嵌入：每个词都映射为低维空间 (K=50-300) 上的 稠密向量，维度看作 隐含主题
- 深度学习：CNN/RNN 更好地对文本建模，抽取高层语义特征
  - 与全连接 NN 相比：减少参数，提高训练速度，降低过拟合风险

CBOW 上下文预测当前，Skip-gram 当前预测上下文
- 输入层 (Input)：one-hot encoding，N 维向量
- 映射层 (Projection)：K 个 hidden units，使用 $N\times K$ 维权重矩阵计算得到
- 输出层 (Output)：N 维向量， $K\times N$ 维权重矩阵，softmax 计算生成概率
训练网络权重：由于 softmax 归一化，需要对所有单词遍历
- Hierarchical Softmax：输出层词通过 Huffman 树编码， $O(n)\rightarrow O(logn)$
- Negative Sampling：随机选择一小部分的 negative words
Word2vec 与 LDA 的区别和联系
- LDA：利用文档单词共现关系来对单词按主题聚类，文档-单词 -> 文档-主题 + 主题-单词
- Word2vec：上下文-单词矩阵进行学习
- LDA 是基于概率图模型的生成式模型，Word2vec 是神经网络

模型提供的信息：训练数据、先验信息
- 先验信息作用在模型：内在结构、条件假设、约束条件
- 先验信息作用在数据集：调整、变换、扩展训练数据
训练数据不足 => 过拟合
- 基于模型：简化模型、约束项、集成学习、Dropout
- 基于数据：数据扩充 (Data Augmentation)
  - 旋转、平移、缩放、裁剪、填充、左右旋转
  - 噪声干扰、颜色变换、亮度、清晰度、对比度、锐度
其他方法：SMOTE、生成模型、迁移学习 (fine-tune)

Last updated 3 years ago