8. 采样
8.1 采样的作用 **
本质是对随机现象的 模拟
样本集可以看作 非参数模型,是 信息降维(经验风险 => 期望风险)
重采样,估计统计量的 bias / variance(bootstrap),或改变样本分布(imbalance)
复杂 / 因变量,随机模拟近似求解,e.g. LDA 和 深度玻尔兹曼机 DBM 的 Gibbs Sampling
MCMC 和 EM、变分推断(Variational Inference, VI) 的联系和区别?
8.2 均匀分布随机数 *
线性同余法 ,区间为 [0, m-1],初始值 称为随机种子
最多只能产生 m 个不同的随机数,很多数无法取到,循环周期达不到 m
8.3 常见的采样方法 ***
有限离散分布,轮盘赌算法
不好直接采样,函数变换法,抽样后反函数 间接得到 x
如果 ,则
如果 是 x 的累计分布函数,称为 逆变换采样
抽取随机数 ;计算
如果累计分布函数的逆函数无法求解,可以构造 参考分布,再 后处理
接受-拒绝采样
参考分布 抽取 ;抽取随机数 ;如果 ,则接受
为 包络函数,延伸出 自适应拒绝采样
重要性采样
计算函数 在目标分布 上的积分(函数期望)
参考分布 ,令 ,则有 , 可以看作重要性权重
从 中抽取样本,然后
如果不需要计算函数积分,只想采样若干样本,可以按照 重要性重采样
MCMC 采样
高维空间随机向量,难以寻找合适参考分布,采样效率低下
接受概率小 / 重要性权重低
Metropolis-Hastings Sampling
Gibbs Ssampling
8.4 高斯分布的采样 ***
逆变换法
,其中 erf 是高斯误差函数
erf 不是初等函数,没有显式解,避免求逆
Box-Muller:联合概率分布,圆盘概率
,,且相互独立
三角函数,相对比较耗时
Marsaglia polar method:单位圆盘采样,, 替代 cos / sin
令 ,则 , 服从
拒绝采样法:指数分布 为参考分布,
Ziggurat 算法:拒绝采样,阶梯矩形逼近目标分布
8.5 马尔可夫蒙特卡洛采样法 MCMC **
基本思想
针对目标分布,构造 Markov Chain,平稳分布是目标分布
初始状态出发,状态转移,序列会收敛到目标分布,得到一系列样本
核心是构造合适的 Markov Chain,即确定 状态转移概率
常见方法
Metropolis-Hastings Sampling
对于目标分布 ,选取参考条件分布 ,并令
随机初始样本 ,根据参考条件分布抽取 ,抽取随机数 u
若 ,则接受 ,否则拒绝,保持不变
Gibbs Sampling:是 MH 算法的一个特例,每次只对 一个维度 进行采样和更新
与拒绝采样的区别
在拒绝采样中,如果拒绝,则不产生新样本,重新采样
MCMC 每一步都产生一个样本,只是有时候与之前的相同,此外需要 burn-in
如何得到相互独立的样本
MCMC 样本序列中,相邻的样本不是独立的
采样不需要独立,如果确实需要,多条 Markov Chain 或间隔取出
8.6 贝叶斯网络的采样 ***
没有观测变量
祖先采样(Ancestral Sampling),根据有向图顺序依次采样
只需要对部分变量的边缘分布采样,祖先采样,对全部变量采样,再忽略不需要的
含有观测变量
逻辑采样,即 祖先采样 得到所有变量的值,符合则接受,不符则拒绝(效率低)
似然加权采样(重要性思想),只对非观测变量采样,但需要重要性权值
MCMC 采样
Metropolis-Hastings Sampling:Cloudy=T/F, Rain=T/F,4 种状态转移
Gibbs Sampling:每次只更新 Cloudy / Rain,交替进行
8.7 不均衡样本集的重采样 ***
很多模型 imbalance 时会出现问题,本质是 训练优化目标 和 测试评价标准 不一致
train 的样本分布(e.g. 1:99) 与 test 的期望分布(正确率=>1:1) 不一致
train 的类别权重(FP == FN) 与 test(FP != FN) 代价不一致
基于数据的方法
over-sampling:增加复杂度,过拟合
SMOTE:降低过拟合风险,但可能增大 类间重叠度,生成无效样本
Borderline-SMOTE 只给边界上的少数类合成样本
ADASYN 给不同的少数类合成不同个数的新样本
清理方法,进一步降低 类间重叠
under-sampling:损失信息
Informed Undersampling:多次训练,级联结构 等思想
Hard Negative Mining:比较难的样本抽出来,用于迭代
基于算法的方法
改变目标函数:代价敏感学习,AUC
极度不均衡:单类学习(one-class learning)、异常检测(anomaly detection)
Last updated