9. 计算机视觉 CV
Last updated
Last updated
检测图像中是否存在给定类别的物体,如果存在,返回 bounding box
one / two-stage:独立地、显式地 提取候选区域
one-stage:效率优势,端到端 CNN 预测类别 / 位置
two-stage:精度优势,无监督 选择性搜索 + SVM 分类
原因:one 大量锚框导致不均衡,two 修正后质量更高,two 第二步计算量大
two-stage: R-CNN、SPPNet、Fast R-CNN、Faster R-CNN
one-stage: YOLO、YOLOv2、YOLO9000、YOLOv3
方格,每个方格检测 中心 位于该方格的物体
每个放个预测 B 个边界框,中心位置 + 高宽 + 置信度
小物体检测
模型设计:特征金字塔、沙漏结构,减少下采样
训练:提高小物品样本比例,数据增强
尝试更大图像尺寸
前景分割、语义分割、实例分割、全景分割(语义+实例)
Encoder - Decoder 网络结构:FCN、U-Net(快捷连接)、SegNet
DeepLab
v1:空洞卷积、全连接条件随机场
v2:空洞空间金字塔池化(ASPP,多个扩张率的空洞卷积,解决目标大小差异问题)
v3、v3+:BN 层、ASPP 后 1x1 卷积、全局平均池化
基本模块:文本检测 + 文本识别
基于候选框 / 基于像素分割
基于候选框(锚框):尺寸不敏感,无法适应倾斜角较大,精度较低
基于像素分割(语义分割 + 聚合):更高精度,小尺寸检出率低
端到端(节约计算时间):CRNN(卷积+循环+转录)、FOTS(卷积+检测+旋转+识别)
效果不是非常理想
图片 -> 描述性文字
评测指标:BLEU、ROUGE、METEOR、CIDEr、SPICE
基本思想:前四个基于 N-gram、SPICE 基于 情景图
2D
bottom-up:基于部件(关键点 + 匹配 + 连接),速度快,准确率低
实现方式:关键点回归(坐标)、关键点检测(热图,堆叠沙漏网络)
多任务框架,同时处理 人体检测、关键点检测、人体分割 等
3D
借助 2D 提升 3D
top-down:人体检测 + 关键点检测,准确率高,时间 人数
回归方法:,约束信息,不理想