深度学习-分类

深度学习-分类方式

      • (重点)一、按数据类型与处理逻辑分类
        • 1. 序列数据(时序/顺序相关)
        • 2. 网格状数据(空间相关)
        • 3. 图结构数据(非欧几里得结构)
        • 4. 其他特殊类型数据
      • (重点)二、按模型功能与应用场景分类
        • 1. 判别模型(分类/回归)
        • 2. 生成模型
        • 3. 强化学习模型
        • 4. 无监督/自监督模型
      • 三、按网络结构与核心机制分类
        • 1. 基于卷积的架构
        • 2. 基于循环的架构
        • 3. 基于自注意力的架构
        • 4. 基于胶囊的架构
      • 四、按网络规模与训练方式分类
        • 1. 小型轻量级模型
        • 2. 大型预训练模型(大模型)
        • 3. 分布式训练模型
      • (重点)五、按任务类型分类
        • 1. 计算机视觉(CV)模型
        • 2. 自然语言处理(NLP)模型
        • 3. 语音处理模型
        • 4. 跨领域模型
      • 六、总结:分类维度的交叉与融合

深度学习架构
├── 序列建模架构
│   ├── 基础RNN
│   ├── 改进型RNN(LSTM、GRU、Bi-RNN)
│   └── 自注意力模型(Transformer)
├── 空间特征架构(CNN及变种)
├── 图结构架构(GNN)
├── 生成模型(GAN、VAE、扩散模型)
└── 强化学习架构(DQN、Actor-Critic)
  • RNN是序列建模的核心基础,LSTM/GRU等是其优化版本,而Transformer则是序列建模的革命性突破(通过自注意力机制替代循环结构)

  • 在深度学习领域,按数据类型与处理逻辑分类是最常见、最基础的分类方式之一,因为它直接关联数据的固有特性和模型的核心设计逻辑,也是初学者入门时最先接触的分类框架。


(重点)一、按数据类型与处理逻辑分类

1. 序列数据(时序/顺序相关)
  • 特点:数据元素之间存在时间或顺序依赖(如文本、语音、股票价格)。

  • 代表模型

    • 循环神经网络(RNN):基础RNN、LSTM、GRU、Bi-RNN。
    • 自注意力模型:Transformer及其变体(BERT、GPT、T5等)。
    • 时序卷积网络(TCN):用一维卷积处理序列数据,避免RNN的循环计算瓶颈。
2. 网格状数据(空间相关)
  • 特点:数据具有二维(图像)或三维(视频、体素)空间结构。

  • 代表模型

    • 卷积神经网络(CNN):LeNet、AlexNet、ResNet、U-Net。
    • 视觉Transformer(ViT):将图像分块后用自注意力机制处理。
    • 三维卷积网络(3D CNN):用于视频动作识别或医学影像分析。
3. 图结构数据(非欧几里得结构)
  • 特点:数据由节点和边组成(如社交网络、分子结构、知识图谱)。

  • 代表模型

    • 图神经网络(GNN):GCN(图卷积网络)、GAT(图注意力网络)、GraphSAGE。
    • 图循环神经网络(GRNN):结合RNN和图结构的时序建模。
4. 其他特殊类型数据
  • 图序列数据:如交通网络的时序流量数据(需同时建模空间图结构和时间序列),可使用时空图神经网络(ST-GNN)
  • 多模态数据:融合图像、文本、语音等多种类型数据,如CLIP(图像-文本跨模态模型)、AudioGPT(语音-文本模型)。

(重点)二、按模型功能与应用场景分类

领域判别式 AI(深度学习应用)生成式 AI(深度学习应用)
自然语言处理文本分类(BERT)、语音识别(RNN)文本生成(GPT)、机器翻译(Transformer)
计算机视觉目标检测(YOLO)、人脸识别(CNN)图像生成(Diffusion 模型)、视频预测
医疗领域癌症病理图像分类(CNN)医学影像合成(VAE)、药物分子设计(GAN)
自动驾驶路况识别(CNN+RNN)虚拟场景生成(模拟复杂路况,训练自动驾驶模型)
1. 判别模型(分类/回归)
  • 目标:对输入数据进行分类或预测连续值。

  • 代表模型

    • 图像分类:ResNet、EfficientNet。
    • 文本分类:TextCNN、FastText。
    • 回归任务:基于CNN的图像超分辨率模型、基于RNN的时序预测模型。
2. 生成模型
  • 目标:生成新的样本数据(如图像、文本、语音)。

  • 代表模型

    • 图像生成:GAN(如StyleGAN)、扩散模型(如Stable Diffusion)。
    • 文本生成:GPT系列、LLaMA、PaLM。
    • 语音生成:WaveNet、Tacotron(语音合成)。
3. 强化学习模型
  • 目标:通过与环境交互学习最优行为策略。

  • 代表模型

    • Atari游戏AI:DQN(深度Q网络)、Rainbow DQN。
    • 机器人控制:PPO(近端策略优化)、SAC(软演员-评论家算法)。
    • 棋类游戏:AlphaGo(CNN+蒙特卡洛树搜索)、AlphaZero(纯神经网络+强化学习)。
4. 无监督/自监督模型
  • 目标:从无标签数据中学习特征表示。

  • 代表模型

    • 图像特征学习:SimCLR(对比学习)、MoCo(动量对比)。
    • 文本预训练:BERT(掩码语言模型)、GPT(自回归语言模型)。
    • 聚类模型:DeepCluster、DEC(深度嵌入聚类)。

三、按网络结构与核心机制分类

1. 基于卷积的架构
  • 核心操作:卷积层(局部特征提取)+ 池化层(降维)。
  • 应用场景:图像、音频等网格状数据。
  • 变种:空洞卷积、可变形卷积、分组卷积(如ResNeXt)。
2. 基于循环的架构
  • 核心操作:隐藏层状态循环传递,捕捉序列依赖。
  • 应用场景:文本、语音等序列数据。
  • 变种:LSTM、GRU、双向RNN。
3. 基于自注意力的架构
  • 核心操作:自注意力机制(全局依赖建模)。
  • 应用场景:序列数据(NLP)、图像/视频(CV)。
  • 代表模型:Transformer、ViT、Swin Transformer。
4. 基于胶囊的架构
  • 核心思想:用“胶囊”(向量神经元)替代传统标量神经元,建模实体的姿态、位置等空间关系。
  • 代表模型:CapsNet(胶囊网络),用于图像识别中的姿态不变性建模。

四、按网络规模与训练方式分类

1. 小型轻量级模型
  • 特点:参数量少、计算效率高,适合边缘设备或实时应用。
  • 代表模型:MobileNet(深度可分离卷积)、ShuffleNet(通道洗牌降参)、TinyBERT(模型蒸馏)。
2. 大型预训练模型(大模型)
  • 特点:参数量巨大(数十亿到万亿级),在海量数据上预训练后微调。

  • 代表模型

    • NLP:GPT-4(1.8万亿参数)、PaLM 2、LLaMA 2。
    • CV:Swin Transformer V2、CLIP(40亿参数)。
    • 多模态:GPT-4V(视觉-语言)、Gemini(文本-图像-语音)。
3. 分布式训练模型
  • 特点:单卡无法容纳模型参数,需通过数据并行、模型并行、流水线并行等方式分布式训练。
  • 技术挑战:通信开销、负载均衡、梯度同步(如DeepSpeed、Megatron-LM框架)。

(重点)五、按任务类型分类

1. 计算机视觉(CV)模型
  • 图像分类、目标检测、语义分割、图像生成、视频理解等。
  • 代表模型:YOLO(目标检测)、Mask R-CNN(实例分割)、Stable Diffusion(图像生成)。
2. 自然语言处理(NLP)模型
  • 文本分类、机器翻译、问答系统、文本生成等。
  • 代表模型:BERT(双向编码)、GPT(自回归生成)、T5(文本到文本迁移学习)。
3. 语音处理模型
  • 语音识别(ASR)、语音合成(TTS)、语音情感分析等。
  • 代表模型:DeepSpeech(语音转文字)、Tacotron 2(文字转语音)。
4. 跨领域模型
  • 多模态任务(如图文检索、视频描述生成),如ALBEF(视觉-语言预训练)、Flamingo(视频-语言模型)。

六、总结:分类维度的交叉与融合

实际应用中,模型可能属于多个分类维度的交叉领域,例如:

  • Transformer:既属于“序列建模架构”(按数据类型),又属于“基于自注意力的架构”(按核心机制),还可用于“生成模型”(如GPT)或“判别模型”(如BERT)。
  • ViT:属于“网格状数据架构”(处理图像),但核心机制是自注意力,而非卷积。

这种多维分类方式体现了深度学习领域的灵活性和跨领域特性,不同维度的分类帮助研究者和工程师从数据特性、任务目标、技术原理等角度选择或设计合适的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/88950.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/88950.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言---常见的字符函数和字符串函数介绍

目录 前言 1 字符分类函数 2 字符转换函数 3 strlen的使用和模拟实现 3.1 strlen的模拟实现 4 strcpy的使用和模拟实现 4.1 strcpy的模拟实现 5 strcat的使用和模拟实现 5.1 strcat的模拟实现 6 strcmp的使用和模拟实现 6.1 strcmp的模拟实现 7 strncpy函数的使用…

Minio入门+适配器模式(实战教程)

一、安装Minio 1.1 拉取镜像 docker pull minio/minio docker images 1.2创建挂载目录 1.2.1 创建数据目录 mkdir -p /docker-minio/data 1.2.2 创建配置文件目录 mkdir -p /docker-minio/config 1.2.3 设置权限 chmod -R 777 /docker-minio/data /docker-minio/config …

LLaMA-Factory 对 omnisql 进行 ppo dpo grpo nl2sql任务 实现难度 时间 全面对比

在LLaMA-Factory框架下,针对omnisql任务(自然语言到SQL生成)应用PPO、DPO、GRPO三种算法的实现难度、时间及全面对比如下: 一、实现难度对比 1. PPO(近端策略优化) 难度:★★☆☆☆&#xff…

Kingbase 数据库中的 sys_guid() 函数报错

解决 Kingbase 数据库中的 sys_guid() 函数报错问题 问题背景 Kingbase 数据库在迁移或使用过程中,可能会遇到 select sys_guid() 函数报错 , 提示函数不存在的情况,这通常是由于以下几种原因造成的: 函数未正确安装或未启用函数参数不符合…

零基础RT-thread第五节:电容按键(2)

上一章的电容按键完全使用的HAL库的代码,并没有使用线程。这里尝试使用线程来控制电容按键。 依旧是 F767 本来以为会很容易实现,没想到尝试了很久,电容按键一直没有反应。 static rt_uint32_t measure_charge_time(void) {// 步骤1: 放电 …

华为云Flexus+DeepSeek征文|单机部署 与 CCE 高可用部署下 Dify 性能实测

引言 在当今的 AI 应用开发领域,选择合适的部署方式对于应用的性能表现、资源利用和成本控制至关重要。华为云为开发者提供了多样化的部署选择,其中基于单机 Flexus 实例的基础版部署和基于 CCE 容器的高可用版部署是两种常见的方式。本文将深入对比这两…

钉钉小程序框架:Pinia 状态管理与持久化存储封装

上一篇文章完成了 Pinia 在钉钉小程序中的引入与基础配置 文章地址:钉钉小程序框架引入 Pinia 状态管理-CSDN博客 本文将深入探讨如何通过Pinia 结合持久化存储 实现用户状态 在上一章节中,我们已经完成了 Pinia 在钉钉小程序中的引入与基础配置。本章将…

云计算产业链

一、云计算定义与分类体系 本质特征 按需服务模式:以网络化方式提供可配置的计算资源共享池(网络/服务器/存储/应用)。核心能力:快速弹性扩容、资源池化共享、按使用量付费、低管理开销。技术原理:通过分布式计算将大型…

git使用详解和示例

什么是 Git? Git 是一个 分布式版本控制系统(DVCS),用于跟踪文件的变化,协调多人协作开发。由 Linus Torvalds 开发,用于管理 Linux 内核代码。 Git 的核心概念 名称说明工作区 (Working Directory)你看到…

深度学习的引出

虽然我们的神经⽹络给出了令⼈印象深刻的表现,但这样的表现带有⼏分神秘 ⽹络中的权重和偏置是被⾃动发现的。这意味着我们不能⽴即解释⽹络怎么做的、做了什么。我们能否找 到⼀些⽅法来理解我们的⽹络通过什么原理分类⼿写数字?并且,在知道…

GEO(生成式引擎优化)—— 内容创作者与企业的生死新战场

在搜索引擎优化(SEO)定义了互联网信息获取规则数十年后,一场由生成式人工智能(AIGC)驱动的风暴正悄然重塑整个格局。当ChatGPT、Claude、Gemini等AI助手能够直接生成整合后的答案,而非仅仅提供链接列表时&a…

混合密度模型GMM的似然函数(二)

设 Θ { π k , θ k } k 1 K \varTheta \{ \pi_k, \boldsymbol {\theta}_k \}_{k1}^{K} Θ{πk​,θk​}k1K​为参数向量, X { x 1 , ⋯ , x n } \mathcal {X} \{ {\bm x}_1, \cdots, {\bm x}_n \} X{x1​,⋯,xn​}为观测数据,给定数据点的独立性&a…

selenium元素定位

当我们可以打开浏览器后我们如果想要进行web测试我们自然要对网页的一些功能进行单独拿出来进行测试,但是我们要怎么才能拿到我们想要的元素,并且对其进行操作呢。 我们就以百度主页的输入框为例,如果我们想要王输入框中输入一些内容我们就需…

2025第十五届上海生物发酵展:江苏健达干燥盛装赴会

2025 年 8 月 7 - 9 日,上海新国际博览中心将迎来一场生物发酵行业的盛会 —— 第 15 届上海国际生物发酵产品与技术装备展览会(BIOCHINA 2025)。作为国内干燥设备领域的领军企业,江苏健达干燥工程有限公司受邀盛装参展&#xff0…

【效率工具】单机游戏修改方案:轻量管理器+全能平台组合

大家好!今天我要给大家介绍两款超级实用的软件,专门为喜欢玩单机游戏的小伙伴们准备。 一、风灵月影管理器 不想满网翻修改器?这个 27M 的小工具直接帮你一键搞定,这款软件是由B站UP鸦无量 开发。 收录上千款游戏补丁,…

七天学会SpringCloud分布式微服务——01——基础概念

重点是复习体系,从今天6.24开始,确保转化为自己的东西心平气和,脚踏实地学习的是尚硅谷微服务 1、从单体架构到集群架构再到分布式架构 单体架构 就是 所有的功能(服务)模块 都部署在同一台服务器(一台服…

三分钟学会利用deepseek将复杂信息转换成可视化图表

数据可视化是传达复杂信息的重要手段。通过将数据转化为直观的图表、图形和交互式界面,我们可以更高效地理解信息、发现趋势并做出决策。对于普通人来说,要将数据可视化可谓千难万难。但在AI工具飞速发展的今天,这个过程将会变得非常简单。今天分享的内容就是如何使用生成式…

PDF处理控件Spire.PDF系列教程:Python中快速提取PDF文本、表格、图像及文档信息

在 Python 中读取 PDF 文档是实现文档自动化、内容分析和数据提取的基础操作之一。无论你处理的是合同、报告、发票,还是科研论文,能够通过代码访问 PDF 内容,不仅能节省时间,还能带来更高效的处理流程。 要在 Python 中准确提取…

微软人工智能证书AI-102 | 如何快速通过?

微软 AI-102 考试,全称 “Designing and Implementing a Microsoft Azure AI Solution”,是微软推出的用于验证考生在 Azure 平台上设计和实施 AI 解决方案核心能力的认证考试。以下是具体介绍: 考试描述: 考试主要衡量考生实施计…

github使用指南

1、生成SSH密钥对 ssh-keygen -t ed25519 -C "你的github邮箱"然后根据提示保存路径,设置密码 2、将公钥添加到github cat ~/.ssh/id_ed25519.pub复制输出内容。 在gihub中点击New SSH Key,添加密钥 3、配置git使用SSH地址 git remote se…