论文解析:一文弄懂ResNet(图像识别分类、目标检测)

目录

一、相关资源

二、Motivation

三、技术细节

1.残差学习过程

2.快捷连接类型

(1)Identity Shortcuts(恒等捷径)

(2)Projection Shortcuts(投影捷径)

(3)两种捷径对比

3.深层瓶颈结构Deeper Bottleneck Architectures

四、网络结构及参数选择

1.主网络

2.残差连接

五、创新点

1.残差学习框架的提出

2.高效的残差块设计

3.极深网络的成功训练

六、评价指标

1.图像识别分类

top-1错误率

top-5错误率

2.目标检测

(1)层响应标准差Standard deviations (std) of layer responses

(2)mAP

七、启发/Idea

1.迁移学习的价值

2.充分借鉴前人的工作,并在其基础上进行创新

3.背景动机要明确,实验过程要完整


一、相关资源

论文题目:Deep Residual Learning for Image Recognition

链接:CVPR 2016 Open Access Repository

参考代码:

deep-learning-for-image-processing/pytorch_classification/Test5_resnet at master · WZMIAOMIAO/deep-learning-for-image-processing · GitHub

二、Motivation

        深度神经网络在训练过程中遇到的一个核心问题,即“退化”问题。这个问题表现为,当网络层数增加到一定程度时,网络的性能(如准确率)不再提升,反而出现下降的现象。

        传统的深度神经网络在层数增加到一定程度后,会出现梯度消失或梯度爆炸的问题,导致网络难以训练。尽管通过标准化初始赋值和中间层(如Batch Normalization)可以在一定程度上缓解这些问题,但还是会出现准确率饱和然后下降的问题。

        为了解决上述问题,论文提出了一种残差学习的框架。这种框架允许网络直接学习输入与输出之间的残差(即差异),而不是直接学习输入到输出的映射。

三、技术细节

1.残差学习过程

        利用shortcut connection实现残差块:

        实现思想:较深层网络产生的误差至少不应该高于上一层产生的训练误差。

2.快捷连接类型

        Identity shortcuts(恒等捷径)和Projection shortcuts(投影捷径)是深度残差网络(ResNet)中两种不同类型的捷径(shortcut)实现方式,它们在处理输入和输出维度时扮演着不同的角色,两种图像结构在③中展现。

(1)Identity Shortcuts(恒等捷径)

定义:

        Identity shortcuts是一种不需要额外参数的捷径方式,当残差块的输入和输出维度一致时,可以直接将输入通过捷径加到输出上,实现恒等映射(Identity mapping)。

应用场景:

        当残差块的输入和输出维度完全相同时,可以使用Identity shortcuts。

        例如,在ResNet的某些层中,如果特征图的尺寸和通道数都没有改变,那么这些层之间的捷径就可以是Identity shortcuts。

(2)Projection Shortcuts(投影捷径)

定义:

        Projection shortcuts是一种需要额外参数的捷径方式,用于处理残差块输入和输出维度不匹配的情况。它通常通过额外的卷积层(如1x1卷积)或其他操作(如池化层)来调整输入特征的维度,使其与输出特征的维度相匹配。

应用场景:

        当残差块的输入和输出维度不同时,如改变了特征图的尺寸或通道数,需要使用Projection shortcuts进行维度匹配。

        例如,在ResNet的降采样层中,特征图的尺寸会减半,通道数会增加一倍,此时就需要使用Projection shortcuts来调整输入特征的维度。

(3)两种捷径对比

3.深层瓶颈结构Deeper Bottleneck Architectures

四、网络结构及参数选择

这里尤其注意深层瓶颈结构的代码实现

    1.主网络

            第一个网络块的1×1卷积核使用stride=2实现下采样

            后面三个网络块1×1卷积核使用stride=1,块内层结构如表内所示

    2.残差连接

            这里只在第一个网络块(虚线残差捷径)使用1×1卷积核实现维度对齐(128*4)、下采样(stride=2,长宽减半)

            后面三个网络块(实线残差捷径)使用1×1卷积核恒等连接

            具体可以网络的结构实现可以看上面相关资源里提及的参考代码

    五、创新点

    1.残差学习框架的提出

            论文提出了一种残差学习(Residual Learning)框架,通过引入残差块(Residual Block)来解决这一问题。残差块通过添加一个跨越连接(Shortcut Connection),将输入直接加到输出上,形成残差映射(Residual Mapping)。这种方式使得网络更容易学习恒等映射(Identity Mapping),避免了深层网络中的退化问题(Degradation Problem),即随着网络层数的增加,训练误差反而增大的现象。

    2.高效的残差块设计

            论文中设计了两种类型的残差块:普通的残差块和瓶颈残差块。普通的残差块包含两个3×3的卷积层,每个卷积层后都跟着批归一化(Batch Normalization)和ReLU激活函数。瓶颈残差块则包含三个卷积层,分别是1×1、3×3和1×1的卷积层,这种设计能够降低计算复杂度,同时保持相同的网络深度。这两种残差块的设计使得ResNet能够在保持网络性能的同时,减少计算量,提高训练效率。

    3.极深网络的成功训练

            论文通过引入残差学习框架,成功训练了超过100层的深度神经网络。在ImageNet数据集上,使用152层的ResNet取得了3.57%的错误率,这一结果优于当时的许多其他网络模型,如VGG等。此外,ResNet还在多个计算机视觉任务中表现出色,如图像检测、定位和分割等,证明了残差学习框架的通用性和有效性。

    六、评价指标

    1.图像识别分类

    top-1错误率

            定义:Top-1 Error Rate是指模型对于测试数据集中每张图片的预测结果中,概率最高的那个类别(即top-1预测)与实际标签不相符的比例。

            解释:这个指标衡量了模型最直接、最自信的预测结果(即概率最高的预测)的准确性。Top-1 Error Rate越低,说明模型在给出最有可能的分类时越准确。

    top-5错误率

            定义:Top-5 Error Rate是指模型对于测试数据集中每张图片的预测结果中,概率最高的前五个类别(即top-5预测)中没有包含实际标签的比例。

            解释:这个指标考虑了模型在前五个最可能的分类中的预测准确性。由于模型给出了更多的选择(即前五个预测),因此Top-5 Error Rate在数值上通常会小于Top-1 Error Rate。Top-5 Error Rate越低,说明模型在给出五个最有可能的分类时,包含实际标签的可能性越高,从而反映出模型在分类任务中的整体性能较好。

    2.目标检测

    (1)层响应标准差Standard deviations (std) of layer responses

            计算每一层响应的标准差,以了解该层输出数据的离散程度。

            ①反映数据分布:标准差的大小可以反映该层输出数据的分布情况。标准差大意味着输出数据的分布范围较广,可能存在较大的差异性;标准差小则意味着输出数据相对集中,差异性较小。

            ②辅助模型诊断:通过观察不同层响应的标准差,可以辅助进行模型诊断。例如,如果某一层的标准差异常大或异常小,可能意味着该层存在某种问题(如梯度消失、梯度爆炸等),需要进一步检查和优化。

            ③评估模型稳定性:标准差还可以用于评估模型的稳定性。在相同条件下多次运行模型并计算各层响应的标准差,如果标准差较小且稳定,说明模型在不同运行之间的输出差异较小,具有较高的稳定性。

    (2)mAP

            mAP是Mean of Average Precision的缩写,即平均精确度(Average Precision,AP)的平均值。在目标检测中,由于需要同时考虑物体的分类和定位(即边界框的准确性),因此传统的分类准确率(accuracy)并不适用。mAP通过综合考虑不同IoU(Intersection over Union,交并比)阈值下的模型表现,提供了一个更为全面和准确的性能评估标准。

    七、启发/Idea

    1.迁移学习的价值

            论文中的残差网络不仅在图像识别任务上表现出色,还被广泛应用于其他计算机视觉任务中,如目标检测、图像分割等。这体现了深度学习模型的迁移学习能力,即在一个任务上训练的模型可以很容易地迁移到其他相关任务上。这启发我们在实际应用中,要充分利用已有的深度学习资源和模型,通过迁移学习来加速新任务的开发和部署。

    2.充分借鉴前人的工作,并在其基础上进行创新

            残差学习的思想并非完全凭空而来,它借鉴了前人关于网络结构优化和特征学习的研究成果。早期的多层感知机(MLPs)训练中,会在网络输入和输出之间添加一个线性层。另外,一些工作通过快捷连接来中心化层响应、梯度和传播误差。

            如“highway networks”,指的是一种特殊的神经网络架构,它旨在解决深度神经网络在训练过程中由于层数过深而导致的梯度消失或梯度爆炸问题。Highway Networks通过引入“门控机制”(gating mechanism)来允许信息在网络层之间更顺畅地流动,从而改善深度神经网络的训练效率和性能。

            然而,论文在残差学习框架的具体实现上进行了创新,设计了残差块(Residual Block)作为网络的基本单元,使得网络内所有的部分都参与了训练过程,并通过实验验证了其有效性。

    3.背景动机要明确,实验过程要完整

            论文通过明确的研究背景、创新的方法框架、全面的实验验证以及广泛的应用前景等多个方面体现了其完整性。它不仅解决了深度神经网络训练中的难题,还为后续的深度学习研究提供了重要的思路和方法。

            作者在多个数据集上进行了实验,包括ImageNet、CIFAR-10等,以验证残差网络的有效性和优越性。详细分析了实验结果,展示了残差网络在训练过程中的稳定性和准确性,证明了残差学习可以有效解决网络退化问题。论文还将残差网络与其他流行的深度神经网络进行了对比,展示了残差网络在性能上的显著提升。

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909304.shtml

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    动态规划算法的欢乐密码(二):路径问题

    专栏:算法的魔法世界 个人主页:手握风云 一、例题讲解 1.1. 不同路径 题目要求是计算从网格的左上角(起点)到右下角(终点)的所有不同路径的数量。机器人每次只能向下或向右移动一步。如下图所示&#xff0…

    嵌入式相关开源项目、库、资料------持续更新中

    嵌入式相关开源项目、库、资料------持续更新中 学习初期最难找的就是找学习资料了,本贴精心汇总了一些嵌入式相关资源,包括但不限于编程语言、单片机、开源项目、物联网、操作系统、Linux、计算机等资源,并且在不断地更新中,致力…

    图像处理与机器学习项目:特征提取、PCA与分类器评估

    图像处理与机器学习项目:特征提取、PCA与分类器评估 项目概述 本项目将完成一个完整的图像处理与机器学习流程,包括数据探索、特征提取、主成分分析(PCA)、分类器实现和评估五个关键步骤。我们将使用Python的OpenCV、scikit-learn和scikit-image库来处理图像数据并实现机器…

    MATLAB | 如何使用MATLAB获取《Nature》全部绘图 (附23-25年图像)

    文末有全部图片资源 我在两年前更过如何用 MATLAB 爬取 《Nature》全部插图,最近又有人问我有没有下载好的24,25年插图的压缩包,于是又去拿代码运行了一下,发现两年前写的代码今天居然还能用,代码如下: f…

    中国老年健康调查(CLHLS)数据挖掘教程(1)--CLHLS简介和数据下载

    北京大学“中国老年健康影响因素跟踪调查(简称‘中国老年健康调查’;英文名称为Chinese Longitudinal Healthy Longevity Survey (CLHLS))”及交叉学科研究由国家自然科学基金委主任基金应急项目、重大项目、重点项目及国际合作项目。1998-20…

    基本多线程编译make命令

    背景: 在ffmpeg源码编译的时候要等很久,快下班了,等不及。 解决方法: 使用多线程编译。 make -j{n} 如: make -j8详解:(没时间看的可以返回了!) 在编译 FFmpeg 时使用…

    MNIST数据集上朴素贝叶斯分类器(MATLAB例)

    MNIST数据集上朴素贝叶斯分类器 Naive Bayes Classification fitcnb Train multiclass naive Bayes model Syntax Mdl fitcnb(Tbl,ResponseVarName) Mdl fitcnb(Tbl,formula) Mdl fitcnb(Tbl,Y) Mdl fitcnb(X,Y) Mdl fitcnb(___,Name,Value) [Mdl,AggregateOptimization…

    网站设计小技巧:利用交互设计提升用户体验

    现在很多企业朋友都会感觉到,做网站设计掌握不好设计网页的魂,换了很多设计方式可能效果都不理想。蒙特网站专注高端网站建设20多年,基于为华为、字节跳动、海康威视等头部企业打造网站的经验,今天将近期用户比较喜欢的网页设计方…

    Github指南-Add .gitignore和Choose a license

    Add .gitignore(添加忽略文件列表) 📌 作用: .gitignore 文件用于告诉 Git 哪些文件或文件夹**不要被上传(版本控制)**,例如: 编译生成的临时文件(如 .exe, .o&#x…

    如何打造沉浸式文件操作体验

    在操作系统长期运行后,本地文件系统往往会面临一个常见却棘手的问题:元数据管理效率下降,导致用户在海量文件中检索目标内容时出现显著的延迟与操作成本。这种现象在未使用标签化或语义化管理系统的情况下尤为明显。 而 Oversis 的出现&…

    企业AI深水区突围:从星辰大海到脚下泥泞的进化论

    一、业务价值旅程:从降本增效到价值跃迁 1.1 技术落地的"甜蜜陷阱" 企业在AI应用初期往往陷入"高配用不起,低配用不了"的困境。一台8卡A100服务器每月电费超3万元的成本,对制造业利润形成巨大挤压。即便跨过算力门槛&a…

    PostgreSQL的扩展moddatetime

    PostgreSQL的扩展moddatetime moddatetime 是 PostgreSQL 的一个内置扩展,用于自动维护表的最后修改时间字段。这个扩展可以自动更新指定字段为当前时间戳,非常适合需要跟踪记录最后修改时间的应用场景。 一、moddatetime 基本功能 核心特性 自动更新…

    自己的电脑搭建外网访问网站服务器的步骤

    文章目录 PC电脑做网站服务器的步骤1.前言2. 网站服务器系统的安装2.1个人电脑安装IIS(Windows7系统安装IIS7.0)2.1.1:打开控制面板,给Windows安装插件 2.2网站配置:2.2.1打开网站配置项:2.2.2开始配置&…

    基于深度学习的智能语音合成系统:技术与实践

    前言 随着人工智能技术的飞速发展,智能语音合成(Text-to-Speech, TTS)技术已经成为人机交互领域的重要组成部分。从智能助手到有声读物,语音合成技术正在改变我们与数字内容的交互方式。近年来,深度学习技术为语音合成…

    铸铁平台的制造工艺复杂而精细

    铸铁平台的制造工艺确实复杂而精细。首先,需要选择合适的铸铁材料,通常是灰铸铁或球墨铸铁,以满足平台的强度和耐磨性要求。然后,根据设计要求,制作模具,并在高温下将铁液倒入模具中进行铸造。在铸造过程中…

    ArcPy 与 ArcGIS .NET SDK 读取 GDB 要素类坐标系失败?GDAL 外挂方案详解

    ArcPy 与 ArcGIS .NET SDK 读取 GDB 要素类坐标系失败?GDAL 外挂方案详解 在ArcGIS Pro中正常显示的坐标系,为何通过ArcPy或.NET SDK却无法正确读取?本文将分享我在处理CGCS2000坐标系时的踩坑经历,以及最终通过GDAL外挂方案解决问…

    Zabbix 高可用架构部署方案(2最新版)

    Zabbix 高可用架构部署方案(MySQL 双 VIPHAProxyNginx) 前景提要:使用 MySQL 作为数据库,两个虚拟 IP(10.0.0.100 和 10.0.0.200),HAProxy 作为数据库负载均衡,Nginx 作为 Web 访问…

    深入解析Linux分页机制:从虚拟内存到物理地址的魔法转换

    目录 引言:为什么需要分页机制? 一、分页机制基础概念 1.1 虚拟地址与物理地址 1.2 页与页框 1.3 为什么是4KB? 二、多级页表结构 2.1 为什么需要多级页表? 2.2 x86_64的四级页表结构 2.3 页表项详解 三、Linux分页实现机…

    使用python进行图像处理—图像变换(6)

    图像变换是指改变图像的几何形状或空间位置的操作。常见的几何变换包括平移、旋转、缩放、剪切(shear)以及更复杂的仿射变换和透视变换。这些变换在图像配准、图像校正、创建特效等场景中非常有用。 6.1仿射变换(Affine Transformation) 仿射变换是一种…

    NLP-数据集介绍(并不全,文本类介绍)

    目录 第一章 STS(语义文本相似度) (重点)一、SemEval STS 年度任务(2012-2017)1. SemEval-2012 STS2. SemEval-2013 STS3. SemEval-2014 STS4. SemEval-2015 STS5. SemEval-2016 STS6. SemEval-2017 STS 二…