深度学习:简介与任务分类总览

一、什么是深度学习?

1.1 深度学习的定义

深度学习(Deep Learning)是机器学习的一种特殊形式,它依赖于具有多层结构的神经网络自动从数据中学习特征并完成任务,如图像识别,语音识别,自然语言处理等。

深度学习常常被认为是“端到端学习”的典范:从原始数据输入(如图像像素,音频波形,文本)直接学习到最终输出(分类,生成,预测等)。

1.2深度学习与传统机器学习对比

维度传统机器学习深度学习
特征提取人工设计(如颜色直方图,词袋模型)自动学习特征
模型结构浅层(SVM,决策树,KNN)多层神经网络(DNN,CNN,Transformer)
表达能力有限强大,可逼近任意非线性函数
依赖数据量少量数据即可训练通常需要大规模数据
计算资源普通CPU即可运行通常需要GPU,TPU
应用场景小规模结构化数据图像,视频,文本,音频,大模型等

二、深度学习的核心组成模块(以神经网络为例)

2.1 网络基本结构

组成部分功能示例
输入层接收原始数据(如图像,音频,文本)224*224图像,长度为128的句子
隐藏层(隐藏单元)提取高阶特征(可多个)卷积层,全连接层,注意力层
输出层给出最终预测(分类,数值,掩码等)softmax输出10类,回归数值等

2.2 核心机制解释

  • 激活函数:使网络具备非线性表达能力(ReLU,Sigmoid,Tanh)
  • 损失函数:衡量预测结果与真实值差距(交叉熵,均方误差MSE)
  • 反向传播算法:根据损失计算梯度,用于参数更新
  • 优化器:控制参数更新方式(SGD,Adam,RMSprop)

1.激活函数(Activation Function)

定义:

激活函数是作用在神经网络每个神经元输出上的非线性变换,使网络具备拟合复杂非线性关系的能力。

为什么需要激活函数?

  • 若无激活函数(线性网络),无论堆叠多少层,其最终还是线性函数,无法学习复杂模型。
  • 引入激活函数后,网络可以逼近任意非线性函数。

常见的激活函数 :

名称表达式特点常用场景
Sigmoid\sigma \left ( x \right )=\frac{1}{1+e^{-x}}输出范围 (0,1),常用于概率二分类输出层
Tanhtanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}输出范围 (-1,1),中心对称隐藏层早期模型
ReLUf(x) = max(0,x)稀疏激活,计算快,收敛快最常用,CNN/RNN等隐藏层
Leaky ReLUf(x) = max(\alpha x,x)缓解ReLU“死亡”问题深层网络或小批量训练
SoftmaxSoftmax(x_{i})=\frac{e^{x_{i}}}{\sum_{j}^{e^{x_{j}}}}输出为概率分布多分类输出层

注意事项:

  • 隐藏层通用ReLU(或其变体)
  • 输出层根据任务选择:二分类用Sigmoid,多分类用Softmax,回归无激活或用线性

2.损失函数(Loss Function)

定义:损失函数用来衡量模型预测结果与真实标签之间的差距,是训练过程中优化的目标函数。

常见损失函数: 

类型损失函数表达式/作用使用场景
分类交叉熵(Cross Entropy)L=-\sum ylog(\hat{y})分类任务(Softmax/Sigmoid后)
回归均方误差(MSE)L=\frac{1}{n}\sum (\hat{y}-y)^{2}连续值预测
回归平均绝对误差(MAE)L=\frac{1}{n}\sum_{i=1}^{n}|\hat{y_i}-y_i|对异常值鲁棒的回归任务
多标签

BCE(Binary Cross Entropy)

针对多个二分类图像多标签分类
自监督对比损失(Contrastive/InfoNCE)拉近正样本,推远负样本SimCLR,CLIP,Siamese网络
分割Dice Loss/IoU Loss关注区域重叠率语义/实例分割任务

注意事项:

  • 分类任务常用交叉熵(与Softmax配套)
  • 回归任务慎选损失,MSE对异常值敏感
  • 分割任务要考虑类别不平衡,形状连续性

 

3.反向传播算法(Backpropagation)

定义:

反向传播是一种高效计算神经网络中每个参数对损失函数梯度的方法,是深度学习模型的核心算法。

工作原理:

  • 1.前向传播(Forward):输入从输入层到输出层,得到预测结果。
  • 2.损失计算(Loss):预测与真实标签对比,计算损失。
  • 3.反向传播(Backward):利用链式法则,从输出层向前逐层计算梯度。
  • 4.梯度更新:结合优化器更新模型参数。

数学基础:

利用链式法则计算损失对每层参数的偏导数

示例:若L=f(g(x)) ,则\frac{dL}{dx}={f}'(g(x))\cdot {g}'(x)

注意事项:

  • 会出现梯度爆炸(值过大)或梯度消失(值趋近于0)的问题,尤其在深层网络中
  • 为此需要使用梯度裁剪,BatchNorm,合适激活函数等技术

4.优化器(Optimizer)

定义:

优化器根据反向传播得到的梯度来更新神经网络的参数,使得损失函数逐步下降。

常见优化器:

名称原理简述优点缺点备注
SGD基础的梯度下降算法简单,易实现收敛慢,易陷局部最小可配合动量Momentum
SGD+Momentum引入“惯性”概念

稳定收敛

能跳出局部极小

参数调节复杂

Momentum

一般设为0.9

RMSProp自动调整每个参数学习率对稀疏数据友好参数更新难以解释常用于RNN
Adam自适应学习率+动量收敛快,调参少收敛精度有时候不稳定当前最主流
AdamWAdam+正确的权重衰减收敛更稳,防止过拟合参数略多常用于Transfromer训练
Adagrad/Adadelta早期自适应优化器对稀疏特征友好会停止更新现已经较少使用

学习率(Learning Rate)调节技巧:

  • 可使用学习率衰减策略(如StepDecay,CosineAnnealing)
  • 学习率过高可能发散,过低收敛慢
  • 可用Warmup技术逐步升高学习率,适用于大模型(如BERT) 

 

 核心机制之间的配合逻辑总结图:

          数据输入↓前向传播(激活函数)↓损失函数计算↓反向传播算法(链式法则)↓优化器根据梯度更新参数↓网络更新 → 下一轮训练

三、常见深度学习任务分类总览表

类别任务名称输入输出典型模型特点
1.分类任务

图像分类,

文本分类

图像/文本类别标签

CNN,RNN,

Transformer

多为监督学习,

关注特征提取与决策边界

2.回归任务

股票预测、

房价预测

数值型数据连续数值

MLP、RNN、

LSTM

输出为实数,

误差评估常用MSE等

3.目标检测

YOLO、

Faster R-CNN

图像

目标类别+

位置信息

CNN + Region Proposal

输出包含类别和框,

评估指标为mAP

4.语义分割UNet,DeepLab图像

像素级

类别标签图

FCN,UNet

精细化像素预测,

每个像素有标签

5.实例分割Mask R-CNN图像每个实例的掩码检测 + 分割网络识别不同目标实例,难度更高
6.图像生成GAN,VAE随机噪声/图像图像GAN,Diffusion,VAE生成式模型,关注图像逼真度
7.序列建模机器翻译,语音识别序列(文本/音频)序列RNN,LSTM,Transformer输入输出长度可能不同,注意时序关系
8.强化学习

AlphaGo、

智能体控制

状态,奖励行动策略DQN,PPO,A3C决策导向,目标是最大化累计奖励
9.多模态任务图文检索,VQA图像+文本回答/标签/图文匹配CLIP,BLIP,Flamingo融合多个模态的信息,需对齐特征空间
10.自监督学习SimCLR,MAE无标签数据表征或预测结果对比学习。自编码学习

训练无需标签,

通过任务设计学习表示

11.多标签分类

疾病诊断、

图像标注

图像/文本多个标签集合CNN/Transformer每个样本可对应多个标签,非互斥
12.检索与排序

文本检索、

图像检索

查询+数据集排序列表

Siamese Net,

BERT + Ranking

关注匹配程度,

输出为排序或相似度

13.时间序列预测股票预测,交通流量历史数据未来值LSTM,TCN强时序相关
14.文本生成ChatGPT,BERT文本文本Transformer,GPT聊天机器人,摘要生成

四、各类任务特点简述

1.分类(Classification)

定义:将输入分到预定义的类别中

特点:任务简单,监督标签明确。广泛用于图像识别、文本情感分析,垃圾邮件识别等。

2.回归(Regression)

定义:根据输入预测连续数值输出

特点:输出实数。常用于房价预测,气温预测,股票预测等;常用损失函数为MSE(均方差)

3.目标检测(Object Detection)

定义:识别图像中所有物体及其位置(边界框)

特点:同时完成“分类+定义”任务,适用于安防,自动驾驶等场景;输出包括类别标签和坐标信息

4.语义分割(Semantic Segmentation)

定义:对图像中每个像素赋予语义标签。

特点:像素级别精细标注;每个像素对应一个语义类别,广泛用于医疗图像,遥感图像分析等。

5.实例分割(Instance Segmentation)

定义:识别图像中每个物体实例的掩码与类别。

特点:不仅需要分辨像素类别,还要区分不同个体;结合目标检测与语义分割。

6.图像生成(Image Generation)

定义:根据输入生成新的图像。

特点:典型的生成式任务,常用GAN,Diffusion模型;输出为逼真的新图像,用于AI作画,图像修复,风格迁移等。

7.序列建模(Sequence Modeling)

定义:处理序列到序列的输入输出映射关系。

特点:输入到输出均为变长序列,广泛用于机器翻译,语音识别,字幕生成等时许相关任务。

8.强化学习(Reinforcement Learning)

定义:智能体通过与环境交互学习最大化长期奖励的策略。

特点:无标签,靠奖励信号训练,训练较慢但适用于决策类问题。

9.多模态任务(Multimodel Learning)

定义:同时处理并融合来自多种模态(如图像,文本,音频等)的信息进行预测或生成。

特点:输入通常为图+文或视频+语音等,输出可以是分类标签,文本回答或图像;任务涉及模态对齐,跨模态生成,应用于图文回答,跨模态检索等。

10.自监督学习(Self-supervised Learning)

定义:从未标注数据中通过构造任务进行表示学习最大化长期奖励的策略。

特点:不依赖人工标签,通过数据自身生成监督信号(如BERT的遮蔽预测);适合大规模预训练,如SimCLR,MAE等。

11.多标签分类(Multi-label Classification)

定义:一个输入对应多个非互斥的标签

特点:适用于同时具有多个属性的对象

12.检索与排序(Retrieval and Ranking)

定义:根据查询样本从候选集合中找出最匹配项并排序。

特点:输出为排序结果或相似度分值;广泛用于搜索系统,推荐系统,图文匹配等。

13.时间序列预测(Time Series Forecasting)

定义:基于历史序列数据,预测未来时刻的值。

特点:具有时间依赖性和周期性,广泛应用于金融市场,交通流量,销售趋势等;输出为未来的数值序列或单点预测。

14.文本生成(Text Generation)

定义:基于输入生成新的文本序列。

特点:输出内容连贯,有逻辑;应用于对话生成,摘要生成,代码自动补全等,常用GPT,T5等语言模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/91376.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/91376.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MSPM0开发学习笔记:二维云台画图(2025电赛 附源代码及引脚配置)

前言 今年的电赛(2025),很多题都与云台相关,因此为备战电赛,博主这边也是准备了一个由两个42步进电机驱动的云台并提前进行调试,避免赛题出来之后手忙脚乱的,这边的两个42步进电机采用同一个驱…

借助 Wisdom SSH 的 AI 助手构建 Linux 开发环境

借助Wisdom SSH的AI助手构建Linux开发环境 在Linux系统的开发场景中,快速、准确地搭建开发环境至关重要。Wisdom SSH凭借其强大的AI助手,能极大简化这一过程,其官网为ssh.wisdomheart.cn。以下以在Ubuntu 22.04服务器上构建Python开发环境&am…

Python 程序设计讲义(44):组合数据类型——集合类型:创建集合

Python 程序设计讲义(44):组合数据类型——集合类型:创建集合 目录Python 程序设计讲义(44):组合数据类型——集合类型:创建集合一、集合的特征二、创建集合:使用set()函…

10 - 大语言模型 —Transformer 搭骨架,BERT 装 “双筒镜”|解密双向理解的核心

目录 1、为什么 BERT 能 “懂” 语言?先看它的 “出身” 2、核心逻辑 2.1、“自学阶段”—— 预训练,像婴儿学说话一样积累语感 2.1.1、简述 2.1.2、核心本事:“双向注意力”,像人一样 “聚焦重点” 2.2、“专项复习”—— …

【Spring Boot 快速入门】四、MyBatis

目录MyBatis(一)入门简介MyBatis 入门LombokMyBatis 基础操作数据准备删除预编译新增更新查询XML 映射文件MyBatis(一)入门 简介 MyBatis 是一款 优秀的持久层框架,它支持 自定义 SQL、存储过程以及高级映射&#xf…

Spring IOC 基于Cglib实现含构造函数的类实例化策略

作者:小凯 分享、让自己和他人都能有所收获! 一、前言 技术成长,是对场景设计细节不断的雕刻! 你觉得自己的技术什么时候得到了快速的提高,是CRUD写的多了以后吗?想都不要想,绝对不可能&#xf…

composer 常用命令

### 设置镜像源全局设置composer config -g repo.packagist composer https://mirrors.aliyun.com/composer/当个项目设置composer config repo.packagist composer https://mirrors.aliyun.com/composer/恢复官方源composer config -g --unset repos.packagist### 常用源阿里云…

【python】Python爬虫入门教程:使用requests库

Python爬虫入门教程:使用requests库 爬虫是数据获取的重要手段,下面我将通过一个完整的示例,教你如何使用Python的requests库编写一个简单的爬虫。我们将以爬取豆瓣电影Top250为例。 【python】网络爬虫教程 - 教你用python爬取豆瓣电影 Top…

OpenCV图像缩放:resize

图像缩放是图像处理中的基础操作之一。无论是图像预处理、数据增强还是图像金字塔构建,cv::resize 都是我们最常用的函数之一。但你是否注意到,在 OpenCV 中同时还存在一个名为 cv::Mat::resize 的方法?这两个函数虽然名字类似,但…

汽车、航空航天、适用工业虚拟装配解决方案

一、现状在制造业数字化转型浪潮中,传统装配过程仍面临诸多挑战:物理样机试错成本高、装配周期冗长、工艺优化依赖经验、跨部门协作效率低下……如何打破“试错-返工”的恶性循环?目前总装工艺通过DELMIA、NX、Creo等工程软件进行工艺装配验证…

页面跳转和前端路由的区别

传统方式&#xff1a;通过改变浏览器地址栏的 URL 来实现window.location.href /new-page<a href"/new-page">跳转到新页面</a>会导致整个页面重新加载会触发浏览器向服务器发送新的请求页面状态不会保留&#xff0c;所有资源重新加载可以避免新上线的内…

C/C++核心知识点详解

C/C核心知识点详解 1. 变量的声明与定义&#xff1a;内存分配的本质区别 核心概念 在C/C中&#xff0c;变量的声明和定义是两个完全不同的概念&#xff1a; 声明&#xff08;Declaration&#xff09;&#xff1a;告诉编译器变量的名称和类型&#xff0c;但不分配内存空间定义&a…

物联网发展:从概念到应用的演变历程

物联网的发展历程是一部技术革新与社会需求共同驱动的进化史&#xff0c;其演变可划分为概念萌芽、技术积累、应用拓展和智能融合四个阶段&#xff0c;每个阶段均以关键技术突破或社会需求变革为标志&#xff0c;最终形成万物互联的智能生态。以下是具体演变历程&#xff1a;一…

一个人开发一个App(数据库)

后端要保存数据&#xff0c;我还是选择了关系型数据库Mysql, 因为其它的不熟悉。 flutter端这次我选择的是ObjectBox&#xff0c;以前都是直接用的sqlite3&#xff0c;看对比ObjectBox效率比sqlite3高许多&#xff0c;这次前端为了用户体验&#xff0c;我需要缓存数据&#xff…

天铭科技×蓝卓 | “1+2+N”打造AI驱动的汽车零部件行业智能工厂

7月24日&#xff0c;杭州天铭科技股份有限公司&#xff08;简称 “天铭科技”&#xff09;与蓝卓数字科技有限公司&#xff08;简称 “蓝卓”&#xff09;签订全面战略合作协议。天铭科技董事长张松、副总经理艾鸿冰&#xff0c;蓝卓副董事长谭彰等领导出席签约仪式&#xff0c…

技术复盘报告:Vue表格中多行文本字段数据保存丢失问题

1. 问题背景 在一个基于 Vue 2.0 和 ElementUI 的复杂数据维护页面中&#xff0c;用户报告了一个偶发但严重的问题&#xff1a;在表格中编辑一个多行文本&#xff08;textarea&#xff09;字段时&#xff0c;输入的内容有时会在点击“保存”后丢失。 具体表现&#xff1a; 前端…

#C语言——学习攻略:深挖指针路线(四)--字符指针变量,数组指针变量,二维数组传参的本质,函数指针变量,函数指针数组

&#x1f31f;菜鸟主页&#xff1a;晨非辰的主页 &#x1f440;学习专栏&#xff1a;《C语言学习》 &#x1f4aa;学习阶段&#xff1a;C语言方向初学者 ⏳名言欣赏&#xff1a;"暴力解法是上帝给的&#xff0c;优化解法是魔鬼教的。" 目录 1. 字符指针变量 1.1 使…

SpringBoot收尾+myBatis plus

一、数据传递返回值为:字符串package com.apesource.springboot_web_04.controller;import com.apesource.springboot_web_04.pojo.Emp; import org.springframework.stereotype.Controller; import org.springframework.web.bind.annotation.RequestMapping;/*** 返回值为:字符…

基于 Spring Boot 实现动态路由加载:从数据库到前端菜单的完整方案

在后台管理系统中&#xff0c;不同用户角色往往拥有不同的操作权限&#xff0c;对应的菜单展示也需动态调整。动态路由加载正是解决这一问题的核心方案 —— 根据登录用户的权限&#xff0c;从数据库查询其可访问的菜单&#xff0c;封装成前端所需的路由结构并返回。本文将详细…

VitePress学习-自定义主题

VitePress-自定义主题 代码仓库 基础了解 初始化项目的时候选择 custom theme 运行后会发现页面挺丑的。 如果想要用默认主题怎么办呢&#xff0c;修改Layout。 使用默认主题的Layout <script setup lang"ts"> import { useData } from vitepress; impo…