配套笔记&讲解视频,点击文末名片获取
- 研究背景和动机
在 VGG 出现之前,图像识别就像“盲人摸象”:
- 计算机看一张图,只能凭感觉抓几个零散的“特征点”,
- 结果忽好忽坏,时灵时不灵。
大家发现,如果把“看图的流程”做得更深、更系统,准确率就能蹭蹭往上涨。于是“深一点的网络”成了当时的香饽饽,但问题是: - 怎么深?
- 深了会不会崩?
牛津大学的 VGG 团队(Visual Geometry Group)站出来说:
“我们不想玩花活,就想回答一个朴素的问题——
如果每一层都用最简单、最统一的小积木,一直往上摞,会发生什么?”
他们把“小积木”定成: - 统一大小(3×3)
- 统一步长(一步一格)
- 统一“粘合剂”(池化层)
就像只用一种形状的乐高方块,却硬要搭出摩天大楼。
他们想证明:
“简单 + 深度” 可能比 “复杂 + 浅层” 更给力。
2、VGG16 的创新点
- 深层网络结构(楼层更高的“特征大楼”)
- 可以把神经网络想象成一栋大楼,每一层都在提取不同层次的图像特征。
- AlexNet 就像一栋 8 层的楼,大体能看到物体的形状。
- VGG16 把楼层加高到了 16 层,每一层都更细致地加工特征,能看出更复杂、更抽象的细节。
- 小卷积核堆叠(小放大镜的组