LeNet-5：手写数字识别经典CNN

配套讲解视频，点击下方名片获取

20 世纪 90 年代，计算机已经能识别文本，但图片识别很困难。比如银行支票的手写数字识别，传统方法需要人工设计规则，费时费力且精度不高。
于是，Yann LeCun 及其团队提出了 LeNet-5——一种可以自动从图片中提取特征的卷积神经网络。
1、LeNet-5 的总体思路
1.1 一个生活化比喻
想象你是一个验钞员：

拿到一张钞票（输入图片）
先用放大镜找细节（卷积层）
缩小视野，专注主要花纹（池化层）
再看更复杂的组合图案（深层卷积）
大脑分析所有线索，判断真假（全连接层 + 分类器）
1.2 模型的三大核心步骤
特征提取（卷积层 + 池化层）
特征组合（更深的卷积）
分类决策（全连接层 + Softmax）

暂时无法在飞书文档外展示此内容
2、每一层的作用
2.1 C1 卷积层

目标：找到低级特征（边缘、线条、简单形状）
操作：6 个 5×5 滤镜，每个滤镜学会不同的模式
类比：摄影师用不同滤镜拍摄同一场景，捕捉不同细节
2.2 S2 平均池化层
目标：缩小图像尺寸，保留主要信息，减少计算量
类比：看缩略图——虽然小了，但主体还在
2.3 C3 卷积层
目标：组合前面的低级特征，形成高级特征（曲线、交叉）
特别之处：并不是所有输入都连接到每个输出，减少参数量
2.4 S4 平均池化层
同 S2，再次降维，减少计算量
2.5 C5 卷积层
卷积核大小等于输入大小（5×5），所以每个卷积核看到整个输入
相当于全连接，但参数更少
2.6 F6 全连接层
把提取到的特征重新组合，准备分类
输出 84 个神经元，类似人脑做最后的综合判断
2.7 输出层
Softmax 输出 10 个概率
最高概率对应最终分类结果
3、LeNet-5 的优点与局限
3.1 优点
特征自动提取
参数量小（~6 万），对硬件要求低
思路清晰，是现代 CNN 的模板
3.2 局限
激活函数使用 Sigmoid/tanh，训练容易梯度消失
只能处理小尺寸灰度图像
池化方式是平均池化（现代更常用最大池化）

4、实战项目

A285-lenets5模型实现手写数字识别实时画板手写预测

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/diannao/98017.shtml
繁体地址，请注明出处：http://hk.pswp.cn/diannao/98017.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！