深度学习-----简单入门卷积神经网络CNN的全流程

(一)卷积神经网络(CNN)的核心思想
  1. 传统全连接网络的缺陷
    • 图像平铺展开后,旋转或位置变化会导致输入差异大,难以识别
    • 举例:手写数字“8”在不同位置或旋转后的识别困难(图像在计算机中是一堆按顺序排列的数字,数值为0到255。0表示最暗,255表示最亮) 

  2. CNN的改进
    • 模拟人类视觉,通过卷积层、池化层和全连接层组合,局部扫描图像提取特征
    • 关键优势:对图像的位置、旋转等变换具有鲁棒性(鲁棒性(Robustness)是系统或算法在面对不确定性、异常输入、噪声或环境变化时,仍能保持稳定性能的能力。它是衡量系统可靠性和抗干扰能力的重要指标)
(二)卷积层的原理
  1. 卷积核(Filter/Kernel)
    • 固定权重矩阵(如3x3),作为滤波器扫描图像局部区域
    • 作用:提取局部特征(如边缘、纹理),类似图像滤波操作
    • 对图像(不同的窗口数据)和卷积核(一组固定的权重:因为每个神经元的多个权重固定,所以又可以看做一个恒定的滤波器filter)做内积(逐个元素相乘再求和)的操作就是所谓的『卷积』操作,也是卷积神经网络的名字来源
  2. 滑动窗口计算
    • 卷积核在图像上滑动,与覆盖区域逐元素相乘后求和,生成特征图
    • 公式示例:窗口内元素与卷积核对应位置相乘后累加(如-8的计算过程)
    • 激活函数

      • 通常使用ReLU等非线性激活函数增强特征表达能力

              4.卷积核与卷积操作 

  1. 卷积核是固定权重矩阵,通过与图像局部窗口(大小与核相同)做内积运算提取特征
  2. 内积计算:逐个元素相乘后求和,加上偏置项得到结果
  3. 训练过程中卷积核权重会动态调整(前向传播的输出结果,根据输出结果求得损失函数,进行反向更新),以区分不同类别(如猫/狗识别)
(三)卷积神经网络(CNN)的核心原理及计算流程

1. 卷积核与特征提取

  • 卷积核是固定权重矩阵,通过与图像局部窗口做内积(逐元素相乘后求和)生成特征值,类似“滤波器”提取特定模式(如边缘、纹理)
  • 训练中动态调整卷积核权重以优化分类效果(如区分猫狗)

2. 多通道与多卷积核

  • 彩色图像分RGB三通道,需对应三个卷积核分别处理,结果叠加生成特征图
  • 多卷积核生成多特征图,模拟人眼多视角观察,捕捉不同特征(如形状、颜色分布)
  • 彩色图像含RGB三通道,需分别用对应卷积核计算,结果叠加形成特征图
  • 每组卷积核生成一个特征图,多个核生成多通道特征图(如两个核生成双通道特征图

3. 关键参数与计算

  • 步长(Stride):滑动窗口每次移动的步长,决定输出特征图尺寸
  • 填充(Zero Padding):在图像边缘补0,平衡边缘与中心区域的计算次数,并适配步长整除需求
  • 输出尺寸公式

    示例:32×32图像用5×5卷积核、步长1、填充2,输出仍为32×32特征图
    4. 多层卷积与特征抽象
  • 多层卷积逐步过滤噪声,保留核心特征(如从模糊轮廓到清晰物体形态)
  • 每层输出作为新“图像”(特征图),继续输入下一层卷积或全连接层
  • 多层卷积逐步过滤噪声,保留核心特征(如花朵识别中先模糊后清晰)
  • 每层卷积生成新特征图,后续层可继续处理(如全连接前需展平特征图)

5. 网络结构与流程

  • 输入层:原始图像(如224×224×3)
  • 卷积层:多组卷积核生成多通道特征图(如55×55×48)
  • 池化层(后续讲解):压缩特征图尺寸,减少计算量
  • 全连接层:展平特征图后接全连接神经元,输出分类概率(如飞机/汽车/行人等)

6.池化层(Pooling Layer)

  • 作用:降采样减少特征图尺寸,降低计算量与参数量;控制过拟合。
  • 常见方法
    • 最大池化:选取窗口内最大值作为输出。
    • 平均池化:计算窗口内平均值作为输出。
    • 全局平均池化、全局最大池化:无滑动窗口,直接对整个特征图计算平均值或最大值。
  • 实现方式:通过滑动窗口(如2×2)和步长(如2)遍历特征图。

7.全连接层(FC)

  • 将多通道特征图展平为一维向量,用于分类任务(输出类别概率)
  • 因卷积/池化层仅生成特征图,需全连接层完成最终预测

8.感受野(Receptive Field)

  • 定义:一个神经元或像素点对应原始图像的区域大小
  • 计算示例
    • 单层7×7卷积核的感受野为7×7
    • 多层叠加时,感受野呈指数级扩大(如三层3×3卷积核的感受野为7×7)
  • 参数优化:小卷积核(如3×3)优于大卷积核(如7×7),因前者参数更少且效果相同

9.经典卷积神经网络

  • LeNet:首个成功应用的卷积网络(辛顿发明)
  • AlexNet:依托ImageNet数据集(李飞飞主导)推动深度学习爆发
  • VGGNet:全堆叠3×3卷积核与2×2池化层
  • ResNet(残差网络):引入跨层连接,成为大模型基础
  • DenseNet:基于ResNet的改进,进一步整合跨层连接
(四)感受野

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/95810.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/95810.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Scikit-learn Python机器学习 - 特征降维 压缩数据 - 特征选择 - 单变量特征选择 SelectKBest - 选择Top K个特征

锋哥原创的Scikit-learn Python机器学习视频教程: 2026版 Scikit-learn Python机器学习 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 课程介绍 本课程主要讲解基于Scikit-learn的Python机器学习知识,包括机器学习概述,特征工程(数据…

Datawhale AI夏令营复盘[特殊字符]:我如何用一个Prompt,在Coze Space上“画”出一个商业级网页?

文章摘要 本文详细记录了我在Datawhale AI夏令营期间,如何另辟蹊径,使用Coze(扣子空间)和精心设计的Prompt,从零开始构建一个专业的“智能SEO Agent”产品网页的完整过程。文章将完整展示我编写的“万字”级Prompt&…

SVN和Git两种版本管理系统对比

一、SVN(Subversion)简介SVN是一种集中式版本控制系统。它有一个中心仓库(repository),所有的代码变更都记录在这个中心仓库中。每个开发者从中心仓库检出(checkout)代码到本地工作副本&#xf…

【机器学习】综合实训(一)

项目一 鸢尾花分类该项目需要下载scikit-learn库,下载指令如下:pip install scikit-learn快速入门示例:鸢尾花分类# 导入必要模块 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklea…

vulhub通关笔记1—docker unauthorized-rce

1.docker unauthorized-rce 基本情况 docker swarm是一个将docker集群变成单一虚拟的docker host工具,使用标准的Docker API,能够方便docker集群的管理和扩展,由docker官方提供: 需要在每台机器上安装docker,并且运行…

zotero扩容

最近出差,想要把本地的主机上的文件同步到笔记本,发现zotero不够用,然后寻找了一些zotero扩容的方法,这里记录一下,方便以后查阅。 zotero扩容创建账户登录账户进一步扩容设置Apps Connection设置zoterozotero自带同步…

Kafka基础理论

Kafka概述 kafka是一个分布式的基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。kafka采取了发布/订阅模式,消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息。…

苍穹外卖项目实战(day-5完整版)-记录实战教程及问题的解决方法

Redis基本操作及下载安装包(Redis及可视化工具),都在我的上一篇文章:Redis基本知识及简单操作,这里不再赘述 店铺营业状态修改功能 (1)需求分析与设计 (2)SpringDataRe…

第R8周:RNN实现阿尔兹海默病诊断

数据集包含2149名患者的广泛健康信息,每名缓则的ID范围从4751到6900不等,该数据集包含人口统计详细信息,生活方式因素、病史、临床测量、认知和功能评估、症状以及阿尔兹海默症的诊断。 一、准备工作 1、硬件准备 import numpy as np import …

MySQL复制技术的发展历程

在互联网应用不断发展的二十多年里,MySQL 一直是最广泛使用的开源关系型数据库之一。它凭借开源、轻量、灵活的优势,支撑了无数网站、移动应用和企业系统。支撑 MySQL 长期发展的关键之一,就是 复制(Replication)技术。…

C++从字符串中移除前导零

该程序用于去除字符串开头的零字符。当输入"0000123456"时,程序会输出"123456"。核心函数removeZero()通过while循环找到第一个非零字符的位置,然后使用erase()方法删除前面的所有零。主函数读取输入字符串并调用该函数处理。程序简…

【面试题】C++系列(一)

本专栏文章持续更新,新增内容使用蓝色表示。C面向对象的三大特性:封装,继承,多态(1)封装是将数据和函数组合到一个类里。主要目的是隐藏内部的实现细节,仅暴露必要的接口给外部。通过封装&#…

当没办法实现从win复制东西到Linux虚拟机时的解决办法

① 先确认是否已安装bash复制sudo apt list --installed | grep open-vm-tools如果 没有任何回显 → 没装,跳到 ③如果看到 open-vm-tools 已安装 → 继续 ②② 启动正确的服务(单词别打错)bash复制systemctl status vmtoolsd # 查看…

用Markdown写自动化用例:Gauge实战全攻略!

你作为一名自动化测试工程师,正在为一个复杂的Web应用编写测试脚本:传统工具要求写大量代码,维护起来像解谜游戏,团队非技术成员完全插不上手。这时,Gauge这个“自动化神器”如魔法般出现——它允许用Markdown写可读的…

Unity开发保姆级教程:C#脚本+物理系统+UI交互,3大模块带你通关游戏开发

文章目录基础概念Unity开发环境搭建版本选择:为什么2021 LTS是最佳起点?三步安装:从下载到项目创建界面认知:5分钟掌握核心操作区配置优化:让开发更顺畅验证环境:创建你的第一个CubeC#基础语法与Unity脚本结…

Depth Anything V2论文速读

这篇论文主要讲了两方面1.为了解决模型在正常标注的现实图像上训练的缺陷问题、提出了新的模型训练数据和训练方法真实标记图像存在缺点:标签噪声(深度传感器可能存在空洞、玻璃等物体反射导致精度不准确)、标签细节粗糙(深度图边…

数据库原理及应用_数据库管理和保护_第5章数据库的安全性_理论部分

前言 "<数据库原理及应用>(MySQL版)".以下称为"本书"中第5章前6节内容 引入 数据库的安全性是非常重要的,表现在两个方面:一数据的访问权限,二数据的物理安全.本书在这一章前6节基本上都是理论性的内容,选择其中重要部分进行解读. 5.1数据库安全性…

QT6 配置 Copilot插件

下载项目&#xff1a;解压 GitHub - github/copilot.vim: Neovim plugin for GitHub Copilot Node.js必须安装 Node.js — Download Node.js 例如先安装一个qt6 ,qt Cteatror选择新版本的 设置 效果&#xff0c;注释里面写要求&#xff0c;tab同意 #include "mainwindow…

ArcGIS学习-15 实战-建设用地适宜性评价

选定参评因子 高程坡度河流道路土地利用 确定因子分析标准 以下仅参数仅做展示&#xff0c;并非合理的数值 高程 0-100m&#xff1a;100 分&#xff0c;此高程范围通常地势较为平坦&#xff0c;建设成本相对较低&#xff0c;适宜建设。100-200m&#xff1a;70 分&#xff…

[C/C++学习] 7.“旋转蛇“视觉图形生成

参考文献: 童晶. C和C游戏趣味编程[M].人民邮电出版社.2021. 一.弧度制和角度制的转换 弧度制数值和角度对应表: (PI为圆周率&#xff0c;值为3.1415926)弧度制角度制00PI/630PI/360PI/2902*PI/3120PI1802*PI360二.扇形的绘制 easyx的solidpie( )函数用于在一个矩形区域内绘制…