自主学习-《Self-Adapting Language Models》

代码

https://jyopari.github.io/posts/seal

拟人比喻:

学生把备考的东西,以自己的方式记成笔记精华,更有利于他的理解和记忆。

背景:

Self-improving:

本文:

输入外界知识,LLM将其整理为笔记(self-edit);拿笔记做训练数据做SFT,SFT后的模型(临时用,不更新到最终模型里)用外界知识的QA进行评判打分;作错题的笔记,直接扔弃;作对题的笔记,将<其外界知识,笔记>输入到模型进行reward为正的RL训练,更新模型。

算法:

C是外界知识,\tau是该知识对应的QA。

损失函数:

reward, 做对了题就是1,做错了就是0:

经过近似,loss:

说白了就是"SFT on good self-edits"

这里的外层loop相当于teacher, 内层loop相当于student。在本文两者是同一模型;也可分开为2个模型。

实验:

1. 知识内化

实验结果:

Train on Passage: 直接使用原始的外部知识来SFT训练模型;不使用任何合成数据。(结果表明,效果提升非常小)

Train on Passage+Synthetic: 使用原始外部知识+本模型合成的self-edit数据,共同SFT训练模型;除了不进行RL训练,其他设置和SEAL组相同。(结果表明,这组效果提升较大,但加上RL训练的SEAL能更好些)

Train on Passage+GPT-4.1 Synthetic: 使用原始外部知识+GPT4.1生成的self-edit数据,共同SFT训练模型;(结果表明,效果提升较大,但SEAL虽然用的小模型来合成self-edit数据,因为有RL训练,效果更好)

2. ARC推理和泛化能力benchmark

 self-edit的内容,就是:1. 调用tools做数据增强;2.SFT优化的参数;

存在的问题:

灾难性遗忘。容易记住新的忘了旧的。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/909684.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/909684.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

马上行计划管理后端架构

小程序日活未破万低成本高可用及滚动发版实战。 小程序已经积累很多用户了&#xff0c;高可用及滚动发布已经提上日程。 日活未破万&#xff0c;选购多台多家云服务器或者自建机房搭建k8s(Kubernetes)&#xff0c;成本显然有点太高了。因此取了折中的办法本地和云端服务同时启…

C++---类和对象(上)

1.类的定义 1.1类定义格式 首先我们引入一个新的关键字-----class&#xff0c;class定义一个类。 定义方法 跟我们之前定义结构体非常的像 那我们来简单的看一个类的定义 我们C语言实现的时候&#xff0c;结构体和函数是分离的。但是现在不需要&#xff0c;我可以直接写 …

UE5.5构建iOS失败但没有显式错误信息的问题

报错信息如下 UnrealBuildTool failed. See log for more details. (/Users/somebody/Library/Logs/Unreal Engine/LocalBuildLogs/UBA-UnrealDemo-IOS-Shipping_2.txt) AutomationException: UnrealBuildTool failed. See log for more details. (/Users/somebody/Library/Lo…

浅谈 Unity XR:从混战到统一,OpenXR 的演进与现实困境

一.引言 在 XR&#xff08;扩展现实&#xff09;技术日渐普及的今天&#xff0c;Unity 已成为开发 VR、AR 和 MR 应用的主流平台。然而在这个生态蓬勃发展的背后&#xff0c;XR 的接口标准也经历了混乱到统一的演进过程。从早期的厂商割据&#xff0c;到 Unity 的初步抽象&…

Python基础教学:航天工程领域的精确计算和金融领域的精确计算,分别采用的小数保留位数的方法有哪些?有什么区别?-由Deepseek产生

在Python中处理航天工程和金融领域的精确计算时&#xff0c;虽然都强调精度&#xff0c;但因目标需求、误差容忍度和计算性质不同&#xff0c;其小数保留位数的方法和策略存在显著差异。以下是关键方法和区别分析&#xff1a; 一、航天工程领域 核心需求&#xff1a; 物理世界…

机器人玩具:成年人的心灵游乐场与未来前哨

当提及“机器人玩具 ”&#xff0c;许多人脑海中仍会浮现出孩童在游戏垫上摆弄塑料小人的画面。然而&#xff0c;时代已悄然转变——那些曾被视为童年专属的机械伙伴&#xff0c;如今正被越来越多的成年人郑重捧在手中。这不是一种幼稚的退行&#xff0c;而是一场关于创造力、情…

Spring Cloud LoadBalancer深度解析:官方负载均衡方案迁移指南与避坑实践

引言&#xff1a;为什么LoadBalancer正在取代Ribbon&#xff1f; “Ribbon已进入维护模式” —— Spring官方公告 当你的Spring Boot升级到3.x版本&#xff0c;Ribbon的依赖项将无法通过编译。作为Spring Cloud 官方钦定的替代方案&#xff0c;LoadBalancer凭借&#xff1a; ✅…

暴雨服务器成功中标洪湖市政府框架采购项目

近日&#xff0c;在洪湖市政府 2025 年度行政事业单位服务器封闭式框架协议采购项目中&#xff0c;暴雨服务器凭借其卓越的性能、优质的服务以及合理的价格&#xff0c;成功脱颖而出&#xff0c;赢得了该项目的中标资格。这一成果不仅标志着暴雨服务器在政府领域的认可度进一步…

C# 多线程按顺序执行之ManualResetEvent

ManualResetEvent被用于在** 两个或多个线程间** 进行线程信号发送。 多个线程可以通过调用ManualResetEvent对象的WaitOne方法进入等待或阻塞状态。当控制线程调用Set()方法&#xff0c;所有等待线程将恢复并继续执行。 以下是使用ManualResetEvent的例子&#xff0c;确保多线…

SQL里的正则

1393-capital-gainloss https://leetcode.com/problems/capital-gainloss/description/ IDEA报红但是能执行&#xff01; -- 用全部卖出的减去全部买入的 with b as ( select stock_name, sum(price) AS total_buy_price from Stocks where operation Buygroup by stock_na…

计算机求职提前批/求职什么时候投递合适

前言 大家秋招或者春招&#xff0c;可能一直在网上冲浪&#xff0c;看到一些人在鼓吹说提前批开始&#xff0c;秋招开始。必须要赶紧找工作了&#xff0c;再不找就失业了等等。 然后&#xff0c;到自己就开始焦虑&#xff0c;感觉别人都在投简历&#xff0c;自己不投感觉很吃亏…

八种数据结构简介

目录 1.1 数据结构概述 1.2 数据结构的分类 1.2.1 逻辑结构 1&#xff09;集合 2&#xff09;线性结构 3&#xff09;树形结构 4&#xff09;图形结构 1.2.2 物理结构 1&#xff09;顺序存储 2&#xff09;链式存储 3&#xff09;散列存储 4&#xff09;索引存储 …

破壁虚实的情感科技革命:元晟定义AI陪伴机器人个性化新纪元

在人工智能席卷全球的浪潮中&#xff0c;广东中山一家名为元晟传媒科技的企业正悄然改写情感陪伴产业的游戏规则。作为广东元伴智能科技&#xff08;下称“元伴智能”&#xff09;的战略级下属机构&#xff0c;中山元晟传媒科技凭借独特的“技术场景流量”三角模型&#xff0c;…

leetcode_455 分饼干

1. 题意 给一堆饼干&#xff0c;和一群小朋友。饼干有大小&#xff0c;小朋友有胃口值&#xff1b;小朋友不吃比自己胃口小的饼干&#xff0c;问这些饼干能满足多少小朋友食用。 2. 题解 排序贪心 优先用小饼干满足胃口小的小朋友&#xff0c;这样大饼干就能留给胃口大的小朋…

使用 C# 源生成器(Source Generators)进行高效开发:增强 Blazor 及其他功能

.NET 中源生成器的引入彻底改变了我们的开发方式&#xff0c;它消除了动态逻辑&#xff0c;并在编译时生成静态代码。这不仅提高了应用程序的性能&#xff0c;还提升了开发人员的生产力和代码质量。 如果您正在使用Blazor&#xff08;WebAssembly 或服务器&#xff09;或构建需…

word如何插入高清晰的matlab绘图

emf矢量图 在matlab中画好的图另存为emf格式&#xff0c;保存到本地&#xff0c;然后在word中选择插图图片&#xff0c;注意不要复制粘贴。 亲测好用&#xff01;

解锁 ChatGPT 超能力:全新「记忆」功能深度解析!

点击下方“JavaEdge”&#xff0c;选择“设为星标” 第一时间关注技术干货&#xff01; 免责声明~ 任何文章不要过度深思&#xff01; 万事万物都经不起审视&#xff0c;因为世上没有同样的成长环境&#xff0c;也没有同样的认知水平&#xff0c;更「没有适用于所有人的解决方案…

低压电涌保护:构筑电气设备的安全防线

在现代电力系统中&#xff0c;低压电涌保护扮演着至关重要的角色。雷电和电力系统中的瞬态过电压&#xff0c;是威胁电气设备安全运行的潜在风险。低压电涌保护器&#xff08;SPD&#xff09;作为一种专门设计的防护装置&#xff0c;能够有效地抑制这些电涌&#xff0c;确保电气…

GitLab多人协作MR流程规范模版(merge)

以下是一个适用于 GitLab 多人协作的 MR 流程规范模板&#xff0c;涵盖分支策略、MR 创建流程、冲突处理、审查要求和 CI/CD 设置。可以直接复制到团队 Wiki 或文档中使用。 &#x1f4d8; 一、分支策略 main ← 线上生产分支&#xff0c;仅从 release 合并 dev …

分布式系统全链路监控之一:分布式全链路监控基础概念和OpenTelemetry

文章目录 前言什么是OpenTelemetry核心概念可观测性可靠性和指标理解分布式链路追踪日志跨度链路 上下文传播上下文传播 信号日志OTel日志在 OTel Collector 中的 OTel日志应用程序的OTel日志 结构化、非结构化和半结构化日志结构化日志非结构化日志半结构化日志 OTel日志组件 …