day 37

模型的保存和加载

仅保存模型参数

- 原理:保存模型的权重参数,不保存模型结构代码。加载时需提前定义与训练时一致的模型类。

- 优点:文件体积小(仅含参数),跨框架兼容性强(需自行定义模型结构)。

# 保存模型参数
torch.save(model.state_dict(), "model_weights.pth")# 加载参数(需先定义模型结构)
model = MLP()  # 初始化与训练时相同的模型结构
model.load_state_dict(torch.load("model_weights.pth"))
# model.eval()  # 切换至推理模式(可选)

保存模型+权重

- 原理:保存模型结构及参数

- 优点:加载时无需提前定义模型类

- 缺点:文件体积大,依赖训练时的代码环境(如自定义层可能报错)。

# 保存整个模型
torch.save(model, "full_model.pth")# 加载模型(无需提前定义类,但需确保环境一致)
model = torch.load("full_model.pth")
model.eval()  # 切换至推理模式(可选)

保存训练状态(断点续训)

- 原理:保存模型参数、优化器状态(学习率、动量)、训练轮次、损失值等完整训练状态,用于中断后继续训练。

- 适用场景:长时间训练任务(如分布式训练、算力中断)。

 # 保存训练状态checkpoint = {"model_state_dict": model.state_dict(),"optimizer_state_dict": optimizer.state_dict(),"epoch": epoch,"loss": best_loss,}torch.save(checkpoint, "checkpoint.pth")# 加载并续训model = MLP()optimizer = torch.optim.Adam(model.parameters())checkpoint = torch.load("checkpoint.pth")model.load_state_dict(checkpoint["model_state_dict"])optimizer.load_state_dict(checkpoint["optimizer_state_dict"])start_epoch = checkpoint["epoch"] + 1  # 从下一轮开始训练best_loss = checkpoint["loss"]# 继续训练循环for epoch in range(start_epoch, num_epochs):train(model, optimizer, ...)

早停法(early stop)

- 正常情况:训练集和测试集损失同步下降,最终趋于稳定。

- 过拟合:训练集损失持续下降,但测试集损失在某一时刻开始上升(或不再下降)。

如果可以监控验证集的指标不再变好,此时提前终止训练,避免模型对训练集过度拟合。----监控的对象是验证集的指标。这种策略叫早停法。

if test_loss.item() < best_test_loss: # 如果当前测试集损失小于最佳损失best_test_loss = test_loss.item() # 更新最佳损失best_epoch = epoch + 1 # 更新最佳epochcounter = 0 # 重置计数器# 保存最佳模型torch.save(model.state_dict(), 'best_model.pth')else:counter += 1if counter >= patience:print(f"早停触发!在第{epoch+1}轮,测试集损失已有{patience}轮未改善。")print(f"最佳测试集损失出现在第{best_epoch}轮,损失值为{best_test_loss:.4f}")early_stopped = Truebreak  # 终止训练循环

逻辑:

- 首先初始一个计数器counter。

- 每 200 轮训练执行一次判断:比较当前损失与历史最佳损失。

  - 若当前损失更低,保存模型参数。

  - 若当前损失更高或相等,计数器加 1。

    - 若计数器达到最大容许的阈值patience,则停止训练。

@浙大疏锦行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/907056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MFC:获取所有打印机的名称(打印机模块-2)

背景&#xff1a; “遍历当前用户的每一台虚拟打印机&#xff0c;将其默认纸张设置为 A4 并设置为纵向。” 实现原理&#xff1a; 1.从当前用户的注册表读取所有已配置的打印机&#xff1b; 2.遍历每台打印机&#xff1b; 3.输出其逻辑与实际纸张大小&#xff1b; 4.尝试设置…

Python驱动的游戏场景实时生成:如何用AI创造无限可能?

友友们好! 我是Echo_Wish,我的的新专栏《Python进阶》以及《Python!实战!》正式启动啦!这是专为那些渴望提升Python技能的朋友们量身打造的专栏,无论你是已经有一定基础的开发者,还是希望深入挖掘Python潜力的爱好者,这里都将是你不可错过的宝藏。 在这个专栏中,你将会…

手机发热怎么办?

1⃣关闭后台程序 &#x1f449; 把后台运行的其他程序关掉&#xff0c;玩游戏或看视频前&#xff0c;先清理一下后台&#xff0c;避免发热 2⃣“脱掉”手机壳 &#x1f449;夏天可以换成轻薄的散热壳&#xff0c;比如金属、亚克力材质的&#xff0c;或者暂时取下手机壳 3⃣物理…

【安全攻防与漏洞​】​​HTTPS中的常见攻击与防御​​

HTTPS 中常见攻击与防御策略涵盖中间人攻击&#xff08;MITM&#xff09;、SSL剥离、重放攻击等&#xff0c;帮助构建安全的 HTTPS 通信环境&#xff1a; 一、中间人攻击&#xff08;MITM&#xff09; 攻击原理 场景&#xff1a;攻击者通过伪造证书或劫持网络流量&#xff0c…

如何搭建perfino监控(分析java服务性能)

本文主要解释如何搭建perfino监控服务, 用于关注生产环境的性能指标, 提前知道什么时候达到服务器资源瓶颈, 避免资源不足时手忙脚乱~ 1. 安装与部署​ ​​1. 下载与安装​ ​官网下载​&#xff1a;Perfino 官网 获取最新版本&#xff08;支持 Windows/Linux/macOS&#xf…

5 分钟速通密码学!

让我们开始第一部分&#xff1a;密码学基础 (Cryptography Basics)。 第一部分&#xff1a;密码学基础 (Cryptography Basics) 1. 什么是密码学&#xff1f; 想象一下&#xff0c;在古代战争中&#xff0c;将军需要向远方的部队传递作战指令。如果直接派人送信&#xff0c;信…

MyBatis入门:快速搭建数据库操作框架 + 增删改查(CRUD)

一、创建Mybatis的项目 Mybatis 是⼀个持久层框架, 具体的数据存储和数据操作还是在MySQL中操作的, 所以需要添加MySQL驱动 1.添加依赖 或者 手动添加依赖 <!--Mybatis 依赖包--><dependency><groupId>org.mybatis.spring.boot</groupId><artifactI…

基于Ubuntu的ros版本切换

解决在同一个虚拟机中管理两个不同版本的ros 基于Ubuntu&#xff08;20.04&#xff09; ros版本1和版本2的切换 前期准备&#xff1a;已经在Ubuntu中安装了两个版本的ros&#xff0c;这里以版本1的noetic和版本2的foxy为例 在bashrc中&#xff1a; # ~/.bashrc: executed by…

vue2:横向无限轮播

子组件 <template><div class"infinite-scroll" ref"scrollContainer"><div class"scroll-content" :style"{ transform: translateX(${scrollPosition}px) }"><div v-for"(item, index) in displayItems&q…

CVE-2021-44228源码分析与漏洞复现

漏洞概述 漏洞名称&#xff1a;Apache Log4j2 远程代码执行漏洞 漏洞编号&#xff1a;CVE-2021-44228 CVSS 评分&#xff1a;10.0 影响版本&#xff1a;Apache Log4j 2.0-beta9 至 2.14.1 修复版本&#xff1a;2.15.0、2.16.0 CVE-2021-44228 是 Apache Log4j2 日志框架中因 …

2025年Google I/O大会上,谷歌展示了一系列旨在提升开发效率与Web体验的全新功能

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

【C++指南】string(三):basic_string底层原理与模拟实现详解

. &#x1f493; 博客主页&#xff1a;倔强的石头的CSDN主页 &#x1f4dd;Gitee主页&#xff1a;倔强的石头的gitee主页 ⏩ 文章专栏&#xff1a;《C指南》 期待您的关注 文章目录 引言一、成员变量与内存管理1.1 核心成员变量1.2 内存分配策略 二、默认成员函数的实现与优化…

AWS云与第三方通信最佳实践:安全、高效的数据交互方案

引言 在当今的云计算时代,企业经常需要在AWS云环境中存储和处理数据,同时还需要与第三方应用或服务进行数据交互。如何安全、高效地实现这种通信是许多企业面临的挑战。本文将详细探讨几种AWS云与第三方通信的方案,并分析它们的优缺点,帮助您为自己的业务场景选择最佳解决…

AE THYRO-AX 功率控制器 THYRISTOR-LEISTUNGSSTELLER THYRISTOR POWER CONTROLLER

AE THYRO-AX 功率控制器 THYRISTOR-LEISTUNGSSTELLER THYRISTOR POWER CONTROLLER

【论文解读】STaR:不用人类思维链指导,模型可以自我进化!

1st author: Eric Zelikman paper: STaR: Bootstrapping Reasoning With Reasoning | OpenReview NeurIPS 2022 code: ezelikman/STaR: Code for STaR: Bootstrapping Reasoning With Reasoning (NeurIPS 2022) 1. 当语言模型学会自我进化 Zelikman 等人提出的 STaR (Self-T…

大语言模型 19 - MCP FastAPI-MCP 实现自己的MCP服务 快速接入API

MCP 基本介绍 官方地址&#xff1a; https://modelcontextprotocol.io/introduction “MCP 是一种开放协议&#xff0c;旨在标准化应用程序向大型语言模型&#xff08;LLM&#xff09;提供上下文的方式。可以把 MCP 想象成 AI 应用程序的 USB-C 接口。就像 USB-C 提供了一种…

用Matlab对单目相机参数的标定步骤(保姆级教程)

前言 在图像测量及机器视觉应用中&#xff0c;为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系&#xff0c;必须建立相机成像的几何模型&#xff0c;这些几何模型参数就是相机参数。   在大多数条件下这些参数必须通过实验与计算才能得到&#xff…

【后端高阶面经:架构篇】46、分布式架构:如何应对高并发的用户请求

一、架构设计原则:构建可扩展的系统基石 在分布式系统中,高并发场景对架构设计提出了极高要求。 分层解耦与模块化是应对复杂业务的核心策略,通过将系统划分为客户端、CDN/边缘节点、API网关、微服务集群、缓存层和数据库层等多个层次,实现各模块的独立演进与维护。 1.1 …

SQL每日一题(5)

前言&#xff1a;五更&#xff01;五更琉璃&#xff01;不对&#xff01;是&#xff0c;五更佩可&#xff01; 原始数据&#xff1a; new_hires reasonother_column1other_column2校园招聘信息 11社会招聘信息 22内部推荐信息 33猎头推荐信息 44校园招聘信息 55社会招聘信息…

Kafka Kraft模式集群 + ssl

文章目录 启用集群资源规划准备证书创建相关文件夹配置文件启动各Kafka节点 故障转移测试spring boot集成 启用集群 配置集群时关键就是提前梳理好需要的网络资源&#xff0c;完成对应server.properties文件的配置。在执行前先把这些梳理好&#xff0c;可以方便后面的配置&…