machine-learning
  • Welcome
  • 动手学深度学习
    • 1. 前言
    • 2. 预备知识
    • 3. 线性神经网络
    • 4. 多层感知机
    • 5. 深度学习计算
    • 6. 卷积神经网络
    • 7. 现代卷积神经网络
    • 8. 循环神经网络
    • 9. 现代循环神经网络
    • 10. 注意力机制
    • 11. 优化算法
    • 12. 计算性能
    • 13. 计算机视觉
    • 14. 自然语言处理:预训练
    • 15. 自然语言处理:应用
    • 16. 附录:深度学习工具
  • 百面机器学习
    • 1. 特征工程
    • 2. 模型评估
    • 3. 经典算法
    • 4. 降维
    • 5. 非监督学习
    • 6. 概率图模型
    • 7. 优化算法
    • 8. 采样
    • 9. 前向神经网络
    • 10. 循环神经网络
    • 11. 强化学习
    • 12. 集成学习
    • 13. 生成式对抗网络
    • 14. 人工智能的热门应用
  • 百面深度学习
    • 1. 卷积神经网络 CNN
    • 2. 循环神经网络 RNN
    • 3. 图神经网络 GNN
    • 4. 生成模型
    • 5. 生成式对抗网络 GAN
    • 6. 强化学习 RL
    • 7. 元学习
    • 8. 自动化机器学习 AutoML
    • 9. 计算机视觉 CV
    • 10. 自然语言处理 NLP
    • 11. 推荐系统
    • 12. 计算广告
    • 13. 视频处理
    • 14. 计算机听觉
    • 15. 自动驾驶
  • 统计学习方法
  • 推荐系统实践
    • 1. 推荐系统
    • 2. 特征工程
    • 3. Embedding
    • 4. 精排
    • 5. 召回
    • 6. 粗排/重排
    • 7. 多任务/多场景
    • 8. 冷启动
    • 9. 评估调试
    • 10. 自我修养
  • 深度学习推荐系统
    • 1. 推荐系统
    • 2. 进化之路
    • 3. 深度学习的应用
    • 4. Embedding
    • 5. 多角度审视
    • 6. 工程实现
    • 7. 评估方法
    • 8. 前沿实践
    • 9. 知识框架
  • 强化学习的数学原理
    • 1. 基础概念
    • 2. 贝尔曼公式
    • 3. 贝尔曼最优公式
    • 4. 值迭代与策略迭代
    • 5. 蒙特卡洛方法
    • 6. 随机近似与随机梯度下降
    • 7. 时序差分方法
    • 8. 值函数近似
    • 9. 策略梯度方法
    • 10. Actor-Critic方法
Powered by GitBook
On this page
  • 8.1 AutoML 的基本概念 *
  • 8.2 模型和超参数自动化调优 ****
  • 8.3 神经网络架构搜索 ****
  1. 百面深度学习

8. 自动化机器学习 AutoML

8.1 AutoML 的基本概念 *

  • 主要目标:数据集 / 任务 间泛化,不需要人类干预,计算效率

  • 研究方向:特征提取、模型选择、参数调优、NN 结构搜索、模型评估、元学习、迁移学习

8.2 模型和超参数自动化调优 ****

  • 自动化调优方法

    • 网格搜索:配置参数空间层次,配置参数类型(类别 / 整形 / 连续),取值范围(领域知识 / 直觉)

    • 随机搜索:覆盖更大搜索空间,可以 自适应资源分配

    • 贝叶斯优化:根据后验分布 p(f∣λ)p(f|\lambda)p(f∣λ) 选择当前信息下最优,顺序优化

  • 高斯过程回归 => 目标函数后验分布

    • 高斯采样过程:p(f(λ1:m′))∼Normal(μ0(λ1:m′),Σ0(λ1:m′))p(f(\lambda_{1:m}'))\sim Normal(\mu_0(\lambda_{1:m}'),\Sigma_0(\lambda_{1:m}'))p(f(λ1:m′​))∼Normal(μ0​(λ1:m′​),Σ0​(λ1:m′​))

    • 取值 后验概率:p(f∣f1:n)=p(f,f1:n)p(f1:n)∼Normal(μn(λ),σn2(λ))p(f|f_{1:n})=\frac{p(f,f_{1:n})}{p(f_{1:n})}\sim Normal(\mu_n(\lambda),\sigma_n^2(\lambda))p(f∣f1:n​)=p(f1:n​)p(f,f1:n​)​∼Normal(μn​(λ),σn2​(λ))

    • 定义全空间 μ,Σ\mu, \Sigmaμ,Σ -> 采样 λ\lambdaλ -> 后验依然是高斯分布 -> 加权平均,MCMC 计算

  • 贝叶斯优化 获得函数

    • 获得函数:将后验分布转化为确定性函数 a(λ)a(\lambda)a(λ)

    • 常用类型(探索 vs. 利用)

      • 期望提升:期望相同的条件下,方差越大,取值越大

      • 上限置信界、知识梯度

8.3 神经网络架构搜索 ****

  • NAS 搜索范围:拓扑结构、卷积核大小 / 种类、时序模块种类、池化类型

  • 工作流程:定义特定搜索空间,特定搜索策略,找到网络架构 A 并评估,迭代

  • 研究方向

    • 搜索空间:链式结构、基于元胞 / 块

    • 搜索策略:随机搜索 / 贝叶斯优化、演化算法、强化学习算法、基于梯度的优化算法

    • 评估策略:减少计算量

  • 一次架构搜索

    • 基本原理:所有可能的架构,视为一个超级图的子图,训练 超级架构 可以完成所有 子架构 的评估

    • 优势:所有架构分享超级架构的权重,节约 NAS 时间

    • 劣势:不容易构建,强限制缩小了搜索空间,错过最优解

  • 可微架构搜索

    • 使用 Softmax 函数,将离散的搜索空间,松弛为连续的搜索空间

    • 将 元胞 定义为一个由 N 个节点组成的 DAG,只搜索元胞的架构

Previous7. 元学习Next9. 计算机视觉 CV

Last updated 3 years ago