1. 特征工程
1.1 特征归一化 *
Normalization
数值类型特征,归一化,统一到大致相同的数值区间内
min-max scaling:
z-score scaling:
e.g. 随机梯度下降,不同特征更新速度一致,更快找到最优解
需要:线性回归、LR、SVM、NN
不需要:决策树
1.2 类别型特征 **
Categorical Feature
序号编码 (Ordinal Encoding):1-低, 2-中, 3-高
独热编码 (One-hot Encoding):稀疏向量; 特征选择降维
高维度问题:KNN 高维距离难以衡量; LR 容易过拟合; 部分维度有帮助
二进制编码 (Binary Encoding)
其他:Helmert Contrast, Sum Contrast, Polynomial Contrast, Backward Difference Contrast
1.3 高维组合特征的处理 **
一阶离散特征 两两组合,提高复杂关系的拟合能力,
ID 类型的特征,将用户和物品分别用 k 维向量表示,等价于 矩阵分解,
1.4 组合特征 **
基于 决策树 的特征组合寻找方法,每条根到叶 路径 看成一种特征组合的方式
可以采用 梯度提升决策树 (GBDT)
1.5 文本表示模型 **
词袋模型和 N-gram 模型
词袋模型:文章表示成长向量,每一维代表一个单词,权重使用 TF-IDF
N-gram:连续出现的 n 个词组成的词组
词干抽取 (word stemming):不同词性的单词统一为词干
主题模型:发现代表性主题,计算文章的主题分布
词嵌入与深度学习模型
词嵌入:每个词都映射为低维空间 (K=50-300) 上的 稠密向量,维度看作 隐含主题
深度学习:CNN/RNN 更好地对文本建模,抽取高层语义特征
与全连接 NN 相比:减少参数,提高训练速度,降低过拟合风险
1.6 Word2Vec ***
CBOW 上下文预测当前,Skip-gram 当前预测上下文
输入层 (Input):one-hot encoding,N 维向量
映射层 (Projection):K 个 hidden units,使用 维权重矩阵计算得到
输出层 (Output):N 维向量, 维权重矩阵,softmax 计算生成概率
训练网络权重:由于 softmax 归一化,需要对所有单词 遍历
Hierarchical Softmax:输出层词通过 Huffman 树编码,
Negative Sampling:随机选择一小部分的 negative words
Word2vec 与 LDA 的区别和联系
LDA:利用文档单词共现关系来对单词按主题聚类,文档-单词 -> 文档-主题 + 主题-单词
Word2vec:上下文-单词 矩阵进行学习
LDA 是基于概率图模型的生成式模型,Word2vec 是神经网络
1.7 图像数据不足时的处理方法 **
模型提供的信息:训练数据、先验信息
先验信息作用在模型:内在结构、条件假设、约束条件
先验信息作用在数据集:调整、变换、扩展训练数据
训练数据不足 => 过拟合
基于模型:简化模型、约束项、集成学习、Dropout
基于数据:数据扩充 (Data Augmentation)
旋转、平移、缩放、裁剪、填充、左右旋转
噪声干扰、颜色变换、亮度、清晰度、对比度、锐度
其他方法:SMOTE、生成模型、迁移学习 (fine-tune)
Last updated