配套讲解视频,点击下方名片获取
20 世纪 90 年代,计算机已经能识别文本,但图片识别很困难。比如银行支票的手写数字识别,传统方法需要人工设计规则,费时费力且精度不高。
于是,Yann LeCun 及其团队提出了 LeNet-5——一种可以自动从图片中提取特征的卷积神经网络。
1、LeNet-5 的总体思路
1.1 一个生活化比喻
想象你是一个验钞员:
- 拿到一张钞票(输入图片)
- 先用放大镜找细节(卷积层)
- 缩小视野,专注主要花纹(池化层)
- 再看更复杂的组合图案(深层卷积)
- 大脑分析所有线索,判断真假(全连接层 + 分类器)
1.2 模型的三大核心步骤 - 特征提取(卷积层 + 池化层)
- 特征组合(更深的卷积)
- 分类决策(全连接层 + Softmax)
暂时无法在飞书文档外展示此内容
2、每一层的作用
2.1 C1 卷积层
- 目标:找到低级特征(边缘、线条、简单形状)
- 操作:6 个 5×5 滤镜,每个滤镜学会不同的模式
- 类比:摄影师用不同滤镜拍摄同一场景,捕捉不同细节
2.2 S2 平均池化层 - 目标:缩小图像尺寸,保留主要信息,减少计算量
- 类比:看缩略图——虽然小了,但主体还在
2.3 C3 卷积层 - 目标:组合前面的低级特征,形成高级特征(曲线、交叉)
- 特别之处:并不是所有输入都连接到每个输出,减少参数量
2.4 S4 平均池化层 - 同 S2,再次降维,减少计算量
2.5 C5 卷积层 - 卷积核大小等于输入大小(5×5),所以每个卷积核看到整个输入
- 相当于全连接,但参数更少
2.6 F6 全连接层 - 把提取到的特征重新组合,准备分类
- 输出 84 个神经元,类似人脑做最后的综合判断
2.7 输出层 - Softmax 输出 10 个概率
- 最高概率对应最终分类结果
3、LeNet-5 的优点与局限
3.1 优点 - 特征自动提取
- 参数量小(~6 万),对硬件要求低
- 思路清晰,是现代 CNN 的模板
3.2 局限 - 激活函数使用 Sigmoid/tanh,训练容易梯度消失
- 只能处理小尺寸灰度图像
- 池化方式是平均池化(现代更常用最大池化)
4、实战项目
A285-lenets5模型实现手写数字识别实时画板手写预测