【深度学习笔记 Ⅰ】5 参数和超参数

在深度学习中，参数（Parameters） 和 超参数（Hyperparameters） 是模型训练中两个核心概念，它们共同决定了模型的性能，但作用方式和优化方法截然不同。以下是详细对比与解析：

1. 参数（Parameters）

(1) 定义

参数是模型通过训练数据自动学习得到的变量，直接参与前向传播和反向传播的计算。
例如：权重（Weights）、偏置（Biases）。

(2) 特点

数据驱动：通过梯度下降等优化算法从数据中学习。
数量庞大：深层网络可能有数百万到数十亿个参数。
存储于模型中：训练后保存为模型的一部分（如.pt或.h5文件）。

(3) 常见示例

参数类型	作用	示例
权重矩阵（Weights）	连接神经元，决定特征变换	全连接层的 (W^{[l]})
偏置（Biases）	调整神经元的激活阈值	卷积层的 (b^{[l]})
嵌入向量（Embeddings）	将离散特征映射为连续空间	词嵌入矩阵

(4) 优化方式

反向传播：通过损失函数的梯度更新参数：

2. 超参数（Hyperparameters）

(1) 定义

超参数是训练前人为设定的配置选项，控制模型的结构和训练过程。
例如：学习率、网络层数、批量大小。

(2) 特点

人工设定：无法通过训练数据直接学习（但可通过自动调优技术优化）。
影响全局：决定模型的容量、训练速度和最终性能。
需实验调优：通常通过网格搜索、随机搜索或贝叶斯优化确定。

(3) 常见示例

超参数类型	作用	典型取值范围
学习率（Learning Rate）	控制参数更新步长	(10^{-5}) 到 (10^{-1})
批量大小（Batch Size）	单次训练样本数	32、64、128、256
网络层数（Layers）	决定模型深度	如ResNet-18/50/101
隐藏层维度（Hidden Units）	每层神经元数量	64、128、256、512
正则化系数（λ）	控制L2正则化强度	(10^{-4}) 到 (10^{-2})
Dropout率（p）	随机丢弃神经元的概率	0.2～0.5

(4) 优化方法

手动调参：基于经验或文献推荐值。
自动化调参：
- 网格搜索（Grid Search）：遍历所有组合。
- 随机搜索（Random Search）：更高效。
- 贝叶斯优化（Bayesian Optimization）：基于概率模型。
- 神经架构搜索（NAS）：自动化设计网络结构。

3. 参数 vs. 超参数对比

特性	参数（Parameters）	超参数（Hyperparameters）
是否可学习	✅ 通过数据自动优化	❌ 人工预设或外部调优
数量	通常极多（百万级+）	较少（几十个）
影响范围	局部（单个神经元或层的变换）	全局（模型结构/训练过程）
调整频率	每次迭代更新	训练前设定，偶尔调整
存储位置	模型文件内	配置文件或代码中

4. 关键注意事项

(1) 参数初始化

参数初始值（如He初始化）虽需人为设定，但属于初始化策略，不是超参数（因其不参与训练过程调控）。

(2) 动态超参数

部分超参数可动态调整（如学习率衰减、BatchNorm的动量），但仍归类为超参数。

(3) 超参数敏感性

高敏感超参数：学习率、网络深度。
低敏感超参数：Dropout率（通常0.5附近均可接受）。

(4) 自动化调参工具

工具推荐：
- Optuna
- Ray Tune
- Weights & Biases（W&B）

5. 代码示例

(1) 参数查看（PyTorch）

for name, param in model.named_parameters():print(f"Parameter: {name}, Shape: {param.shape}")

(2) 超参数设置（训练脚本）

# 超参数定义
hyperparams = {"learning_rate": 1e-3,"batch_size": 64,"dropout_rate": 0.5,"hidden_units": 128
}# 应用到模型和优化器
model = MLP(hidden_units=hyperparams["hidden_units"], dropout=hyperparams["dropout_rate"])
optimizer = torch.optim.Adam(model.parameters(), lr=hyperparams["learning_rate"])

6. 总结

参数：模型内部学得的变量，决定具体特征映射。
超参数：训练前的配置，控制模型结构和优化过程。
核心区别：是否通过数据自动优化。
最佳实践：
- 优先调优高敏感超参数（如学习率、网络深度）。
- 使用自动化工具加速超参数搜索。
- 监控参数梯度（如出现NaN需调整超参数）。

理解二者的差异与协作方式，是高效训练深度学习模型的基础。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/89668.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/89668.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！