系列文章目录
文章目录
- 系列文章目录
- 前言
- 4.1 DFL 模块
- 4.1.1 DFL的核心思想
- 4.2 SPP 模块
- 4.2.1 核心思想
- 4.3 SPPF 模块
- 4.3.1 核心思想
- 总结
前言
- Datawhale是一个专注于AI与数据科学的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员
- YOLO-Master
- 本章学习资料
4.1 DFL 模块
Distribution Focal Loss 是YOLO系列在边界框回归中引入的创新模块,源自《Generalized focal loss: learning qualified and distributed bounding boxes for dense object detection》论文的核心思想。
4.1.1 DFL的核心思想
DFL的核心思想是将边界框坐标预测 转化为概率分布估计问题 ,而非传统的直接回归坐标值。
- 具体而言:
- 传统方法 :直接回归边界框的坐标(如左上角和右下角的坐标),使用 L 1 / L 2 L1/L2 L1/L2损失。
- DFL方法 :
- 将每个坐标值建模为一个离散的概率分布 ,假设坐标可能的取值范围被划分为 N N N个区间(如 N = 16 N=16 N=16),模型预测每个区间成为真实坐标值的概率;
- 再计算最终坐标值通过加权求和得到:坐标 = Σ(概率 * 区间位置);
4.2 SPP 模块
Spatial Pyramid Poling 模块是YOLO系列中用于多尺度特征融合的核心组件,灵感来源于2014年何凯明团队提出的空间金字塔池化思想论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》。
- 它通过并行多尺度池化操作,显著提升模型对不同尺寸目标的感知能力。
4.2.1 核心思想
多尺度特征融合,通过 多尺度池化操作 (Multi-level Pooling)提取不同感受野的特征,并将这些特征进行融合,从而增强模型对目标尺度变化的鲁棒性。
- 所有池化操作采用
stride=1
和padding=kernel_size//2
,而非动态调整,确保输出特征图尺寸与输入一致,便于后续拼接。 - 通过 1 × 1 1\times1 1×1 卷积压缩通道数(降维),减少计算量,再在池化后扩展通道(升维),平衡效率与性能。
4.3 SPPF 模块
Spatial Pyramid Pooling-Fast,是
YOLOv5
针对传统SPP
模块的轻量化改进版本,通过串联重复池化实现多尺度特征融合。
4.3.1 核心思想
用更少的计算量,实现等效的多尺度感受野。
- 串联池化替代并行池化:上面
SPP
使用多个不同尺寸的池化核(如 5 × 5 5\times5 5×5 、 、 、 9 × 9 9\times9 9×9 、 、 、 13 × 13 13\times13 13×13)并行处理特征图,而SPPF
通过连续三次串联应用 5 × 5 5 \times 5 5×5 池化,利用叠加效应等效覆盖更大的感受野
总结
- 拆解介绍一些YOLO中的典型网络模块。