5.1 机器学习 - 模型调参

模型调参是提升泛化能力的关键步骤，核心分为 “人工调参”（依赖经验与实验管理）和 “自动调参”（依赖算法与算力），二者适用场景不同，需结合数据量、算力资源和项目周期选择。

一、人工调整超参数：经验驱动，精准可控

人工调参依赖对模型的理解和实验积累，适合需要 “精准把控超参数影响” 或数据量较小的场景，核心是 “科学实验 + 记录复盘”。

1. 核心流程：从 “锚定初始值” 到 “迭代优化”

人工调参不是盲目试错，需遵循 “先定基准、再单变量迭代、最后积累直觉” 的逻辑，降低试错成本：

（1）锚定初始值

优先选择经过验证的 “高质量参考值”，作为调参起点，减少无效实验：

工具包默认值：如 Scikit-learn 中随机森林的 n_estimators=100、逻辑回归的 C=1.0，是官方经过基础验证的安全值；
领域论文 / 官方文档推荐值：如 XGBoost 官方推荐 learning_rate=0.1、LightGBM 推荐 num_leaves=31，是针对模型特性的优化值；
同类任务经验值：如图像分类任务中 CNN 的 batch_size=32/64（适配 GPU 内存）、NLP 任务中 BERT 的 learning_rate=2e-5，是行业通用实践。

（2）单变量迭代调整

每次仅调整1 个超参数，固定其他参数，观察其对模型性能（如验证集准确率、MSE、AUC）的影响，避免多变量交互导致 “无法判断哪个参数起作用”：

示例：固定随机森林的 max_depth=5、min_samples_split=2，仅调整 n_estimators（从 50→100→200→500），记录验证集准确率变化，判断 n_estimators 的最优范围；
关键原则：优先调整对性能影响大的核心超参数（如学习率、树模型深度），再优化次要超参数（如正则化系数、激活函数）。

（3）积累调参直觉：降低后续试错成本

通过多次实验，总结超参数的 “作用规律”，形成针对特定模型 / 任务的直觉：

识别关键超参数：如深度学习的 learning_rate（直接决定是否收敛）、树模型的 max_depth（控制过拟合程度）；
明确敏感超参数：如 SVM 的 gamma（微小变化可能导致准确率波动 10%+）、正则化系数 L2（过大导致欠拟合，过小导致过拟合）；
锁定有效范围：如学习率通常在 1e-4~1e-1 之间（超出则无法收敛或收敛缓慢）、树模型 max_depth 在 3~15 之间（超出易过拟合）。

2. 实验管理与结果可复现

人工调参的最大痛点是 “实验混乱、结果无法复现”，需通过工具和流程解决：

（1）必记录的核心信息

每次实验需完整记录以下内容，确保后续可追溯、可复现：

记录类别	具体内容示例
超参数配置	`n_estimators=200, max_depth=8, min_samples_leaf=2`（完整参数列表）
训练日志	训练集 / 验证集损失曲线、每轮准确率变化、训练时长（如 “epoch 50 验证准确率 89.2%”）
环境信息	Python=3.9、Scikit-learn=1.2.2、XGBoost=2.0.3、GPU=RTX 3090
随机种子	`np.random.seed(42)`、`torch.manual_seed(42)`（固定随机源，确保结果一致）

（2）工具选择

基础方案：TXT/Excel 表格（适合 10~20 次小规模实验，简单直接，无需额外学习成本）；
进阶方案：TensorBoard（可视化损失曲线、超参数对比，适合深度学习任务，可实时监控训练过程）；
专业方案：Weights & Biases（简称 W&B，一站式记录超参数、日志、结果，支持多人协作和实验对比，适合团队项目）。

（3）复现注意事项

固定随机种子：所有涉及随机的操作（如数据划分、模型初始化）需统一种子；
统一环境：避免因 Python 版本、库版本（如 Scikit-learn 0.24 与 1.2 部分参数逻辑不同）、硬件（CPU/GPU 计算精度差异）导致结果偏差；
保存模型与数据：保存训练时的数据集划分（如 train_idx.npy、val_idx.npy）和最终模型权重，方便后续复现验证。

二、自动调节超参数：算法驱动，效率优先

随着算力成本下降、模型复杂度提升（如深度学习、多模型集成），自动调参成为 “大数据、复杂任务” 的优选方案。其核心是通过算法替代人工完成 “超参数选择 → 模型训练 → 性能评估” 的循环，降低对人工经验的依赖。

1. 核心定位与适用场景

自动调参并非 “万能解决方案”，需明确其适用边界：

（1）核心目标

自动化处理 “超参数数量多、人工试错成本高” 的场景（如深度学习模型有数十个超参数）；
快速遍历超参数空间，找到较优组合，为后续人工微调提供基础；
降低非专业人员的调参门槛（如业务人员无需理解模型细节，即可通过工具获得可用模型）。

（2）适用场景

复杂模型：如 CNN、Transformer、多模型集成，超参数数量多（学习率、层数、 batch_size、正则化系数等）；
大规模数据：如亿级样本、TB 级特征，单次模型训练需数小时 / 天，人工试错成本极高；
标准化任务：如分类、回归、图像识别等通用任务，无需定制化超参数逻辑，可复用现有优化算法。

（3）局限性

对 “数据预处理” 的自动化能力弱：如异常值处理、特征工程（如离散变量编码、特征归一化）仍需人工设计，AutoML 的核心优势在 “模型选择与调参”，而非 “数据清理”；
算力消耗大：部分算法（如网格搜索、NAS）需训练数百个模型，对 GPU 资源要求高；
缺乏 “可解释性”：自动搜索出的超参数组合可能性能优秀，但难以解释 “为何该组合最优”，不适合需要强解释性的场景（如金融风控）。

2. 两大核心方向：HPO 与 NAS

自动调参主要分为 “超参数优化（HPO）” 和 “神经网络架构搜索（NAS）”，分别针对 “超参数调整” 和 “模型结构设计”。

（1）超参数优化（HPO: Hyperparameter Optimization）

通过算法在超参数空间中搜索最优组合，核心是 “高效采样 + 性能预测”，常见方法对比：

方法	核心逻辑	优点	缺点	适用场景
网格搜索（Grid Search）	遍历预设的超参数组合（如 `learning_rate=[0.01,0.1], batch_size=[32,64]`）	逻辑简单，可确保遍历所有组合	计算量大，超参数数量多时无法使用	超参数少（2~3 个）、范围小的场景
随机搜索（Random Search）	在超参数范围内随机采样，无需遍历所有组合	效率高于网格搜索，易找到较优解	随机性强，可能错过最优组合	超参数数量中等（3~5 个）的场景
贝叶斯优化（Bayesian Optimization）	基于历史实验结果构建 “性能预测模型”（如高斯过程），指导下一次采样方向	兼顾效率与精度，样本利用率高	超参数空间复杂时，预测模型构建成本高	超参数多（5 个以上）、算力有限的场景

（2）神经网络架构搜索（NAS: Neural Architecture Search）

比 HPO 更进阶的自动调参，不仅优化超参数，还自动化设计神经网络的 “结构”（如层数、卷积核大小、激活函数、层间连接方式），核心针对深度学习模型：

核心逻辑：
1. 定义 “架构搜索空间”：如允许 2~8 层卷积、每层通道数 32~128、激活函数可选 ReLU/LeakyReLU；
2. 选择 “搜索算法”：如强化学习（用控制器生成架构，以验证集性能为奖励）、进化算法（模拟生物进化，通过变异 / 交叉生成新架构）；
3. 性能评估：快速训练候选架构并评估性能，筛选最优架构。
典型案例：
- Google NASNet：通过强化学习搜索出的 CNN 架构，在 ImageNet 上准确率超越当时人工设计的模型；
- AutoKeras：开源 NAS 工具，支持自动搜索 CNN、RNN、Transformer 架构，无需用户编写模型结构代码，适合非专业用户。

3. 工具与实践建议

（1）常用工具推荐

工具类型	工具名称	核心功能	适用场景
轻量 HPO 工具	Optuna	支持网格搜索、随机搜索、贝叶斯优化，兼容 Scikit-learn、PyTorch、TensorFlow	灵活适配各类模型，适合个人 / 小规模项目
轻量 HPO 工具	Hyperopt	基于贝叶斯优化，支持 TPE（Tree-structured Parzen Estimator）算法	超参数空间复杂、需高精度搜索的场景
全流程 NAS 工具	AutoKeras	自动化 CNN/RNN/Transformer 架构搜索，支持分类、回归、图像分割等任务	非专业用户、快速获取可用深度学习模型
企业级 AutoML 工具	Google AutoML Tables	针对表格数据的全流程 AutoML（数据预处理→模型选择→调参→部署）	企业级表格数据任务（如风控、推荐）

（2）实践建议：自动 + 人工结合

自动调参并非 “一劳永逸”，建议与人工调参结合，兼顾效率与精度：

自动调参打基础：用 Optuna/AutoKeras 快速遍历超参数空间，锁定 “较优范围”（如自动调参发现 learning_rate 在 0.05~0.15 有效）；
人工调参精细化：在自动调参确定的范围内，用单变量迭代法微调关键超参数（如在 0.08~0.12 内调整 learning_rate），进一步提升性能；
控制算力成本：自动调参前设置 “最大实验次数”（如 Optuna 设 n_trials=50）和 “单次训练最大时长”，避免算力浪费；
优先优化核心指标：自动调参时明确 “核心评估指标”（如验证集 AUC、MSE），避免因次要指标（如训练速度）影响优化方向。