machine-learning
  • Welcome
  • 动手学深度学习
    • 1. 前言
    • 2. 预备知识
    • 3. 线性神经网络
    • 4. 多层感知机
    • 5. 深度学习计算
    • 6. 卷积神经网络
    • 7. 现代卷积神经网络
    • 8. 循环神经网络
    • 9. 现代循环神经网络
    • 10. 注意力机制
    • 11. 优化算法
    • 12. 计算性能
    • 13. 计算机视觉
    • 14. 自然语言处理:预训练
    • 15. 自然语言处理:应用
    • 16. 附录:深度学习工具
  • 百面机器学习
    • 1. 特征工程
    • 2. 模型评估
    • 3. 经典算法
    • 4. 降维
    • 5. 非监督学习
    • 6. 概率图模型
    • 7. 优化算法
    • 8. 采样
    • 9. 前向神经网络
    • 10. 循环神经网络
    • 11. 强化学习
    • 12. 集成学习
    • 13. 生成式对抗网络
    • 14. 人工智能的热门应用
  • 百面深度学习
    • 1. 卷积神经网络 CNN
    • 2. 循环神经网络 RNN
    • 3. 图神经网络 GNN
    • 4. 生成模型
    • 5. 生成式对抗网络 GAN
    • 6. 强化学习 RL
    • 7. 元学习
    • 8. 自动化机器学习 AutoML
    • 9. 计算机视觉 CV
    • 10. 自然语言处理 NLP
    • 11. 推荐系统
    • 12. 计算广告
    • 13. 视频处理
    • 14. 计算机听觉
    • 15. 自动驾驶
  • 统计学习方法
  • 推荐系统实践
    • 1. 推荐系统
    • 2. 特征工程
    • 3. Embedding
    • 4. 精排
    • 5. 召回
    • 6. 粗排/重排
    • 7. 多任务/多场景
    • 8. 冷启动
    • 9. 评估调试
    • 10. 自我修养
  • 深度学习推荐系统
    • 1. 推荐系统
    • 2. 进化之路
    • 3. 深度学习的应用
    • 4. Embedding
    • 5. 多角度审视
    • 6. 工程实现
    • 7. 评估方法
    • 8. 前沿实践
    • 9. 知识框架
  • 强化学习的数学原理
    • 1. 基础概念
    • 2. 贝尔曼公式
    • 3. 贝尔曼最优公式
    • 4. 值迭代与策略迭代
    • 5. 蒙特卡洛方法
    • 6. 随机近似与随机梯度下降
    • 7. 时序差分方法
    • 8. 值函数近似
    • 9. 策略梯度方法
    • 10. Actor-Critic方法
Powered by GitBook
On this page
  • 9.1 物体检测 ***
  • 9.2 图像分割 ***
  • 9.3 光学字符识别 OCR **
  • 9.4 图像标注 ***
  • 9.5 人体姿势识别 ***
  1. 百面深度学习

9. 计算机视觉 CV

Previous8. 自动化机器学习 AutoMLNext10. 自然语言处理 NLP

Last updated 3 years ago

9.1 物体检测 ***

检测图像中是否存在给定类别的物体,如果存在,返回 bounding box

  • one / two-stage:独立地、显式地 提取候选区域

    • one-stage:效率优势,端到端 CNN 预测类别 / 位置

    • two-stage:精度优势,无监督 选择性搜索 + SVM 分类

    • 原因:one 大量锚框导致不均衡,two 修正后质量更高,two 第二步计算量大

  • two-stage: R-CNN、SPPNet、Fast R-CNN、Faster R-CNN

  • one-stage: YOLO、YOLOv2、YOLO9000、YOLOv3

    • S×SS\times SS×S 方格,每个方格检测 中心 位于该方格的物体

    • 每个放个预测 B 个边界框,中心位置 + 高宽 + 置信度

  • 小物体检测

    • 模型设计:特征金字塔、沙漏结构,减少下采样

    • 训练:提高小物品样本比例,数据增强

    • 尝试更大图像尺寸

9.2 图像分割 ***

前景分割、语义分割、实例分割、全景分割(语义+实例)

  • Encoder - Decoder 网络结构:FCN、U-Net(快捷连接)、SegNet

  • DeepLab

    • v1:空洞卷积、全连接条件随机场

    • v2:空洞空间金字塔池化(ASPP,多个扩张率的空洞卷积,解决目标大小差异问题)

    • v3、v3+:BN 层、ASPP 后 1x1 卷积、全局平均池化

9.3 光学字符识别 OCR **

基本模块:文本检测 + 文本识别

  • 基于候选框 / 基于像素分割

    • 基于候选框(锚框):尺寸不敏感,无法适应倾斜角较大,精度较低

    • 基于像素分割(语义分割 + 聚合):更高精度,小尺寸检出率低

  • 端到端(节约计算时间):CRNN(卷积+循环+转录)、FOTS(卷积+检测+旋转+识别)

  • 效果不是非常理想

9.4 图像标注 ***

图片 -> 描述性文字

  • 评测指标:BLEU、ROUGE、METEOR、CIDEr、SPICE

  • 基本思想:前四个基于 N-gram、SPICE 基于 情景图

9.5 人体姿势识别 ***

  • 2D

    • bottom-up:基于部件(关键点 + 匹配 + 连接),速度快,准确率低

      • 实现方式:关键点回归(坐标)、关键点检测(热图,堆叠沙漏网络)

      • 多任务框架,同时处理 人体检测、关键点检测、人体分割 等

  • 3D

    • 借助 2D 提升 3D

top-down:人体检测 + 关键点检测,准确率高,时间 ∝\propto∝ 人数

回归方法:L=∑iI∣∣viP(x,y,z)−G(x,y,z)∣∣22L=\sum_i^I ||v_i P(x,y,z)-G(x,y,z)||_2^2L=∑iI​∣∣vi​P(x,y,z)−G(x,y,z)∣∣22​,约束信息,不理想