LeNet-5
网络架构

LeNet-5网络架构示例图
核心贡献:
- 卷积-池化交替结构:奠定CNN基础范式
- 特征层次提取:从边缘→部件→对象
- 端到端训练:原始像素到最终分类
- 权值共享:大幅减少参数
技术规格:
- 输入尺寸:32×32灰度图像
- 卷积核:5×5
- 池化:2×2平均池化
- 激活函数:Sigmoid
- 首次应用于手写数字识别(MNIST)
AlexNet
突破性架构设计

AlexNet网络架构示例图
革命性创新:
-
ReLU激活函数:
- 解决梯度消失问题
- 加速训练收敛
- 计算效率高于Sigmoid/Tanh
-
Dropout正则化:
- 在全连接层使用
- 防止过拟合
- 提升泛化能力
-
重叠池化:
- 池化步长(2)小于窗口大小(3)
- 提升特征丰富性
- 减少过拟合
-
多GPU并行:
- 首次分布式训练
- 跨GPU通信优化
卷积网络结构优化之路
1. VGG
核心思想:
- 同构块设计:所有卷积层使用3×3小核
- 深度堆叠:16-19层网络
- 特征传递:每块通道数翻倍
3×3卷积优势:
- 相同感受野下参数更少:2层3×3 vs 1层5×5
- 参数量:2×(3²C²) = 18C² vs 25C²
- 更多非线性变换
- 决策函数更具判别性
2. ResNet
核心问题:深度网络退化现象
残差块设计:
y=F(x,Wi)+xy = \mathcal{F}(x, {W_i}) + xy=F(x,Wi)+x
创新价值:
- 解决梯度消失问题
- 允许训练1000+层网络
- 特征复用与传播
Inception结构
1×1卷积
核心功能:
- 降维压缩:
- 减少通道数
- 控制计算量
- 特征重组:
- 跨通道信息整合
- 增强特征表达能力
- 非线性增强:
- 添加ReLU激活
- 提升模型表达能力
计算量对比:
- 直接5×5卷积:256×256×5×5×28×28 = 1.28G FLOPs
- 1×1降维后:256×64×1×1×28×28 + 64×256×5×5×28×28 = 0.15G FLOPs
- 计算量减少88%
Inception模块
设计哲学:
“让网络自己选择最优特征尺度” - Christian Szegedy
基础Inception模块:

Inception示例图
创新特点:
-
并行多尺度处理:
- 1×1卷积:捕获局部特征
- 3×3卷积:中等感受野
- 5×5卷积:大感受野
- 池化:空间不变性
-
瓶颈设计:
- 每个分支前使用1×1卷积降维
- 平衡计算复杂度
-
特征多样性:
- 不同感受野特征融合
- 增强模型表达能力
GoogleNet(了解)
网络架构全景

Inception示例图
核心成就:
- 2014 ImageNet冠军(Top-5错误率6.67%)
- 仅500万参数(AlexNet的1/12)
- 计算量1.5G FLOPs(AlexNet的1/3)
创新设计:
- Inception模块堆叠:9个模块化单元
- 中间辅助分类器:2个辅助输出
- 高效特征金字塔:宽度渐增,深度渐减
卷积神经网络特征可视化
理解CNN的"视觉世界"
可视化方法:
-
第一层滤波器可视化
-
特征图激活可视化
-
最大激活图像
层次化特征学习
特征抽象层次:
-
浅层(Conv1-2):
- 边缘检测器
- 颜色对比区域
- 方向敏感纹理
-
中层(Conv3-4):
- 纹理组合
- 重复图案
- 简单形状
-
深层(Conv5+):
- 物体部件(眼睛、车轮)
- 复杂结构
- 类别特定特征
经典CNN架构对比分析
架构 | 创新点 | 参数量 | 计算量 | Top-5错误率 |
---|---|---|---|---|
LeNet-5 | 首CNN实践 | 6万 | - | >1%(MNIST) |
AlexNet | ReLU/Dropout | 6000万 | 1.1G FLOPs | 15.3% |
VGG-16 | 同构3×3块 | 1.38亿 | 15.5G FLOPs | 7.3% |
Inception v3 | 多尺度融合 | 2400万 | 5G FLOPs | 5.6% |
ResNet-50 | 残差连接 | 2560万 | 4.1G FLOPs | 4.9% |
总结
-
特征学习优于特征工程:
- CNN自动学习层次化特征
- 端到端训练消除人工干预
-
架构创新驱动性能突破:
- ReLU解决梯度消失
- 残差连接实现深度训练
- Inception优化计算效率
-
可视化解锁黑箱:
- 特征可视化揭示网络工作原理
- 指导网络设计与优化
- 增强模型可解释性
-
未来方向:
- 神经架构搜索(NAS)
- 注意力机制融合
- 多模态联合学习
- 轻量化部署
“卷积神经网络不仅改变了计算机视觉,更重塑了我们对学习的理解。” - Geoffrey Hinton
经典CNN架构的演进历程,展现了一条从手工特征到自主学习、从浅层网络到深层架构、从单一尺度到多尺度融合的技术进化之路。这些创新奠定了现代深度学习的基础,也为未来人工智能的发展指明了方向。