【Datawhale组队学习202506】YOLO-Master task04 YOLO典型网络模块

系列文章目录

文章目录

系列文章目录
前言
4.1 DFL 模块
- 4.1.1 DFL的核心思想
4.2 SPP 模块
- 4.2.1 核心思想
4.3 SPPF 模块
- 4.3.1 核心思想
总结

前言

Datawhale是一个专注于AI与数据科学的开源组织，汇集了众多领域院校和知名企业的优秀学习者，聚合了一群有开源精神和探索精神的团队成员
YOLO-Master
本章学习资料

4.1 DFL 模块

Distribution Focal Loss 是YOLO系列在边界框回归中引入的创新模块，源自《Generalized focal loss: learning qualified and distributed bounding boxes for dense object detection》论文的核心思想。

4.1.1 DFL的核心思想

DFL的核心思想是将边界框坐标预测 转化为概率分布估计问题 ，而非传统的直接回归坐标值。

具体而言：
- 传统方法 ：直接回归边界框的坐标（如左上角和右下角的坐标），使用 $L 1/ L 2$ 损失。
- DFL方法 ：
  1. 将每个坐标值建模为一个离散的概率分布 ，假设坐标可能的取值范围被划分为 $N$ 个区间（如 $N = 16$ ），模型预测每个区间成为真实坐标值的概率;
  2. 再计算最终坐标值通过加权求和得到：坐标 = Σ(概率 * 区间位置);

4.2 SPP 模块

Spatial Pyramid Poling 模块是YOLO系列中用于多尺度特征融合的核心组件，灵感来源于2014年何凯明团队提出的空间金字塔池化思想论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》。

它通过并行多尺度池化操作，显著提升模型对不同尺寸目标的感知能力。

4.2.1 核心思想

多尺度特征融合，通过多尺度池化操作（Multi-level Pooling）提取不同感受野的特征，并将这些特征进行融合，从而增强模型对目标尺度变化的鲁棒性。

所有池化操作采用stride=1和padding=kernel_size//2，而非动态调整，确保输出特征图尺寸与输入一致，便于后续拼接。
通过 $1\times1$ 卷积压缩通道数（降维），减少计算量，再在池化后扩展通道（升维），平衡效率与性能。

4.3 SPPF 模块

Spatial Pyramid Pooling-Fast，是 YOLOv5 针对传统 SPP 模块的轻量化改进版本，通过串联重复池化实现多尺度特征融合。

4.3.1 核心思想

用更少的计算量，实现等效的多尺度感受野。

串联池化替代并行池化：上面 SPP 使用多个不同尺寸的池化核（如 $5\times5$ $、$ $9\times9$ $、$ $13\times13$ ）并行处理特征图，而 SPPF 通过连续三次串联应用 $\times 5$ 池化，利用叠加效应等效覆盖更大的感受野

总结

拆解介绍一些YOLO中的典型网络模块。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/web/86013.shtml
繁体地址，请注明出处：http://hk.pswp.cn/web/86013.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！