【深度学习笔记 Ⅰ】5 参数和超参数

在深度学习中,参数(Parameters)超参数(Hyperparameters) 是模型训练中两个核心概念,它们共同决定了模型的性能,但作用方式和优化方法截然不同。以下是详细对比与解析:


1. 参数(Parameters)

(1) 定义
  • 参数是模型通过训练数据自动学习得到的变量,直接参与前向传播和反向传播的计算。
  • 例如:权重(Weights)、偏置(Biases)。
(2) 特点
  • 数据驱动:通过梯度下降等优化算法从数据中学习。
  • 数量庞大:深层网络可能有数百万到数十亿个参数。
  • 存储于模型中:训练后保存为模型的一部分(如.pt.h5文件)。
(3) 常见示例
参数类型作用示例
权重矩阵(Weights)连接神经元,决定特征变换全连接层的 (W^{[l]})
偏置(Biases)调整神经元的激活阈值卷积层的 (b^{[l]})
嵌入向量(Embeddings)将离散特征映射为连续空间词嵌入矩阵
(4) 优化方式
  • 反向传播:通过损失函数的梯度更新参数:
    在这里插入图片描述

2. 超参数(Hyperparameters)

(1) 定义
  • 超参数是训练前人为设定的配置选项,控制模型的结构和训练过程。
  • 例如:学习率、网络层数、批量大小。
(2) 特点
  • 人工设定:无法通过训练数据直接学习(但可通过自动调优技术优化)。
  • 影响全局:决定模型的容量、训练速度和最终性能。
  • 需实验调优:通常通过网格搜索、随机搜索或贝叶斯优化确定。
(3) 常见示例
超参数类型作用典型取值范围
学习率(Learning Rate)控制参数更新步长(10^{-5}) 到 (10^{-1})
批量大小(Batch Size)单次训练样本数32、64、128、256
网络层数(Layers)决定模型深度如ResNet-18/50/101
隐藏层维度(Hidden Units)每层神经元数量64、128、256、512
正则化系数(λ)控制L2正则化强度(10^{-4}) 到 (10^{-2})
Dropout率(p)随机丢弃神经元的概率0.2~0.5
(4) 优化方法
  • 手动调参:基于经验或文献推荐值。
  • 自动化调参
    • 网格搜索(Grid Search):遍历所有组合。
    • 随机搜索(Random Search):更高效。
    • 贝叶斯优化(Bayesian Optimization):基于概率模型。
    • 神经架构搜索(NAS):自动化设计网络结构。

3. 参数 vs. 超参数对比

特性参数(Parameters)超参数(Hyperparameters)
是否可学习✅ 通过数据自动优化❌ 人工预设或外部调优
数量通常极多(百万级+)较少(几十个)
影响范围局部(单个神经元或层的变换)全局(模型结构/训练过程)
调整频率每次迭代更新训练前设定,偶尔调整
存储位置模型文件内配置文件或代码中

4. 关键注意事项

(1) 参数初始化
  • 参数初始值(如He初始化)虽需人为设定,但属于初始化策略,不是超参数(因其不参与训练过程调控)。
(2) 动态超参数
  • 部分超参数可动态调整(如学习率衰减、BatchNorm的动量),但仍归类为超参数。
(3) 超参数敏感性
  • 高敏感超参数:学习率、网络深度。
  • 低敏感超参数:Dropout率(通常0.5附近均可接受)。
(4) 自动化调参工具
  • 工具推荐
    • Optuna
    • Ray Tune
    • Weights & Biases(W&B)

5. 代码示例

(1) 参数查看(PyTorch)
for name, param in model.named_parameters():print(f"Parameter: {name}, Shape: {param.shape}")
(2) 超参数设置(训练脚本)
# 超参数定义
hyperparams = {"learning_rate": 1e-3,"batch_size": 64,"dropout_rate": 0.5,"hidden_units": 128
}# 应用到模型和优化器
model = MLP(hidden_units=hyperparams["hidden_units"], dropout=hyperparams["dropout_rate"])
optimizer = torch.optim.Adam(model.parameters(), lr=hyperparams["learning_rate"])

6. 总结

  • 参数:模型内部学得的变量,决定具体特征映射。
  • 超参数:训练前的配置,控制模型结构和优化过程。
  • 核心区别:是否通过数据自动优化。
  • 最佳实践
    • 优先调优高敏感超参数(如学习率、网络深度)。
    • 使用自动化工具加速超参数搜索。
    • 监控参数梯度(如出现NaN需调整超参数)。

理解二者的差异与协作方式,是高效训练深度学习模型的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/89668.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/89668.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 阻塞等待框架

在 Linux 设备驱动开发中,阻塞机制 是处理资源暂时不可用(如设备未准备好数据、缓冲区满等)的核心手段。驱动程序可以将被阻塞的进程设置成休眠状态,然后,在资源可用后,再将该进程唤醒。 在 Linux 驱动开发…

PCIe RAS学习专题(3):AER内核处理流程梳理

目录 一、AER内核处理整体流程梳理 二、AER代码重要部分梳理 1、AER初始化阶段 2、中断上半部 aer_irq 3、中断下半部 aer_isr 3.1、aer_isr_one_error 3.2、find_source_device 3.3、aer_process_err_devices 3.4、handle_error_source 3.5、pcie_do_recovery 整体逻…

​HAProxy负载均衡集群概述

前言: 在现代分布式系统中,负载均衡和高可用性是保障服务稳定性和性能的关键技术。HAProxy 作为一款高性能的 TCP/HTTP 负载均衡器,凭借其轻量级、高并发处理能力和灵活的配置机制,成为构建高可用架构的核心组件之一。通过智能的流…

ELN:生物医药科研的数字化引擎——衍因科技引领高效创新

在生物医药研究领域,实验数据的准确记录与管理是科研成败的关键。想象一个场景:某顶尖医学院实验室,研究员小张正为一项抗癌药物实验焦头烂额。纸质记录本中,数据混乱、协作困难,导致实验重复率高达20%。引入衍因科技的…

暑假---作业2

学习目标&#xff1a;xss-1abs 1-8关python美现自动化布尔自注的2、代码进行优化(二分查找)学习内容&#xff1a;1.xss-1abs 1-8关1<h2 align"center">欢迎用户test</h2>2 <script> alert (1)</script&gt<center> <form action&…

【Tensor数据转换】——深度学习.Torch框架

目录 1 Tensor与Numpy 1.1 张量转Numpy 1.2 Numpy转张量 1 Tensor与Numpy 1.1 张量转Numpy 调用numpy()方法可以把Tensor转换为Numpy&#xff0c;此时内存是共享的。 使用copy()方法可以避免内存共享 import torch import numpy as np# tensor转numpy:numpy() def test0…

基于Tranformer的NLP实战(5):BERT实战-基于Pytorch Lightning的文本分类模型

文本分类作为自然语言处理中的基础任务&#xff0c;能够帮助我们将海量医学摘要自动归类到具体疾病领域中。本文将基于NVIDIA NeMo框架&#xff0c;构建一个用于医学疾病摘要分类的深度学习应用&#xff0c;支持将摘要划分为三类&#xff1a;癌症类疾病、神经系统疾病及障碍、以…

14-链路聚合

链路聚合技术 一 链路聚合概述链路聚合定义链路聚合是把多条物理链路聚合在一起&#xff0c;形成一条逻辑链路。应用在交换机、路由器、服务器间链路。分为三层链路聚合和二层链路聚合。二 链路聚合的作用 1. 链路聚合模式静态聚合模式 端口不与对端设备交互信息。选择参考端口…

学习C++、QT---28(QT库中使用QShortcut类对快捷键创建和使用的讲解)

每日一言 所有的努力&#xff0c;都是为了让未来的自己感谢现在的你。 QShortcut 我们的记事本肯定要有通过快捷键对字体的放大和缩小进行控制的功能啊&#xff0c;那么我们这边就这个问题我们需要先学习一下QShortCut 我们这个类就是专门做快捷键的 老样子我们刚开始学习这个…

Web Worker:让前端飞起来的隐形引擎

目录 Web Worker&#xff1a;让前端飞起来的隐形引擎 一、什么是 Web Worker&#xff1f; 1、为什么需要 web worker 2、什么是 web worker 二、基本使用方法 1、创建一个 Worker 文件&#xff08;worker.js&#xff09; 2、主线程引入并使用 三、实战案例&#xff1a;…

关于在VScode中使用git的一些步骤常用命令及其常见问题:

输入 gitee用户 gitee绑定邮箱git config --global user.name "automated-piggy-senior" git config --global user.email "1323280131qq.com"克隆远程库到本地 git clone https://gitee.com/automated-piggy-senior/20250717-test.git常见问题1&#xff1…

LeafletJS 性能优化:处理大数据量地图

引言 LeafletJS 作为一个轻量、灵活的 JavaScript 地图库&#xff0c;以其高效的渲染能力和模块化设计深受开发者喜爱。然而&#xff0c;当处理大数据量&#xff08;如数千个标记、复杂的 GeoJSON 数据或高分辨率瓦片&#xff09;时&#xff0c;LeafletJS 的性能可能面临挑战&…

LLM(Large Language Model)大规模语言模型浅析

参考: https://zhuanlan.zhihu.com/p/7046080918 LLM(Large Language Model)大规模语言模型,是指具有大规模参数和复杂计算结构的机器学习模型。大模型里常说的多少B, B 是 Billion 的缩写&#xff0c;表示 十亿,如DeepSeek满血版 671B(6710亿参数); 大模型本质上是一个使用海量…

【后端】配置SqlSugar ORM框架并添加仓储

目录 1.添加包 2.配置连接字符串 3.配置SqlSugar 3.1.添加基础类 3.2.添加方法 3.2.1.读取配置方法 3.2.2.枚举扩展方法 3.3.添加管理类&#xff08;重要&#xff09; 4.配置仓储 4.1.仓储接口添加 5.注册 6.使用 该文档是配置SqlSugar多租户和加仓储教程。使用 S…

全国高等院校计算机基础教育研究会2025学术年会在西宁成功举办 ——高原论道启新程,数智融合育英才

7 月16日至18日&#xff0c;全国高等院校计算机基础教育研究会2025学术年会在青海西宁隆重召开。大会以“数智融合&#xff0c;创新计算机教育”为主题&#xff0c;汇聚人工智能领域顶尖专家学者、高校校长、产业翘楚及一线教师300 多人&#xff0c;共商人工智能时代计算机基础…

AppTrace:重新定义免填邀请码,解锁用户裂变新高度

​​在移动互联网时代&#xff0c;​用户裂变是App增长的核心引擎&#xff0c;而邀请机制则是裂变的关键驱动力。然而&#xff0c;传统的邀请码机制——依赖用户手动输入、记忆复杂字符——已经成为用户体验的绊脚石&#xff0c;导致转化率下降、运营成本上升。​AppTrace​ 作…

神经网络常见激活函数 13-Softplus函数

文章目录Softplus函数导函数函数和导函数图像优缺点PyTorch 中的 Softplus 函数TensorFlow 中的 Softplus 函数Softplus 函数导函数 Softplus函数 Softplus⁡(x)ln⁡(1ex)\begin{aligned} \operatorname{Softplus}(x) & \ln \bigl(1 e^{\,x}\bigr) \end{aligned} Softplu…

深度理解 KVM:Linux 内核系统学习的重要角度

&#x1f4d6; 推荐阅读&#xff1a;《Yocto项目实战教程:高效定制嵌入式Linux系统》 &#x1f3a5; 更多学习视频请关注 B 站&#xff1a;嵌入式Jerry 深度理解 KVM&#xff1a;Linux 内核系统学习的重要角度 作者&#xff1a;嵌入式 Jerry 一、为什么开发者需要学习 KVM&…

闭包的定义和应用场景

一、闭包是什么&#xff1f; 闭包是指函数可以“记住”并访问它定义时的词法作用域&#xff0c;即使这个函数在其作用域链之外执行。 简单说&#xff1a;函数 A 在函数 B 中被定义&#xff0c;并在函数 B 外部被调用&#xff0c;它依然能访问函数 B 中的变量&#xff0c;这就是…

北京-4年功能测试2年空窗-报培训班学测开-第五十四天

今天交付的成果是&#xff0c;初版简历虽然只写了项目部分&#xff0c;但用了一整天&#xff0c;期间联系了前司组长&#xff0c;拿到了性能测试报告。然后再看压测脚本&#xff0c;突然能看懂了&#xff0c;对服务端日志也能看懂些了&#xff0c;还找到了客户端日志怎么说呢&a…