【LLM】GLM-4.5模型架构和原理

note

文章目录

  • note
  • 一、GLM-4.5模型
  • 二、Slime RL强化学习训练架构
  • Reference

一、GLM-4.5模型

大模型进展,GLM-4.5技术报告,https://arxiv.org/pdf/2508.06471,https://github.com/zai-org/GLM-4.5,包括GLM-4.5(355B总参数,32B激活参数)和精简版GLM-4.5-Air(106B参数),均采用混合专家(MoE)架构。

分开来看,训练上,包括三阶段。预训练阶段,数据规模:23Ttokens,涵盖网页、社交媒体、书籍、代码等,分两阶段训练,第二阶段重点提升代码、数学和科学领域数据占比;

中期训练阶段,增强推理和智能体能力,序列长度从4K扩展至128K。包含仓库级代码训练、合成推理数据训练、长上下文与智能体训练。
后期训练阶段,采用两阶段难度课程学习,先训练中等难度数据,再切换至极难数据(确保有正确答案),解决奖励信号不足问题;同时直接在64K长输出上进行单阶段RL,避免多阶段训练导致的能力退化;
在这里插入图片描述

创新点方面,减少模型宽度(隐藏维度)、增加深度(层数)以提升推理能力,采用分组查询注意力(GQA)和QK-Norm稳定训练。
在这里插入图片描述

具体的,通过减少隐藏维度(5120)和增加层数(89个MoE层)提升推理能力,而DeepSeek-V3和KimiK2侧重更大的隐藏维度(7168);此外,GLM-4.5引入QK-Norm稳定注意力计算,且包含1个MTP层支持推测解码,而KimiK2无MTP层。

二、Slime RL强化学习训练架构

1、核心设计:三模块解耦(分工明确)​​:​​训练车间(Megatron)​​:专注“学习”,用 GPU 全力计算梯度更新模型参数,就像工厂里埋头干活的工人。
2、​​数据车间(SGLang + Router)​​:负责“模拟环境”,比如让模型练习网页搜索或写代码,生成训练需要的“经验数据”,类似工厂的原料生产线。
3、​​中央仓库(Data Buffer)​​:管理数据流转,存放下游的“经验数据”和上游的“训练任务”,相当于智能调度中心,避免生产线堵塞。

在这里插入图片描述

Reference

[1] https://github.com/zai-org/GLM-4.5/tree/main
[2] https://www.modelscope.cn/models/ZhipuAI/GLM-4.5/files

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/94459.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/94459.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM 中增量解码与模型推理解读

在【LLM】LLM 中 token 简介与 bert 实操解读一文中对 LLM 基础定义进行了介绍,本文会对 LLM 中增量解码与模型推理进行解读。 一、LLM 中增量解码定义 增量解码(Incremental Decoding)是指在自回归文本生成过程中,模型每次只计…

1.Spring Boot:超越配置地狱,重塑Java开发体验

目录 一、Spring框架:伟大的基石 历史背景与挑战 Spring的革命性贡献 新的挑战:配置地狱 二、Spring Boot:约定大于配置的革命 四大核心特性 1. 快速创建独立应用 2. 自动配置:智能化的魔法 3. 起步依赖:依赖管…

assert使用方法

assert 是 Python 中用来进行 调试 和 验证 的一个关键字,它用于测试一个 条件表达式 是否为真。如果条件为假,assert 会抛出一个 AssertionError 异常,通常带有错误信息。语法:assert condition, "Error message"condi…

【实习总结】快速上手Git:关键命令整理

目录 git的四大工作区域 git首次配置 克隆远程仓库 提交代码到远程仓库 查看文件状态(可选) 添加文件到暂存区 将暂存区的内容提交到本地仓库 将本地的提交上传到远程仓库 拉取并合并代码 第一种方式 第二种方式 分支管理 查看与创建分支 …

02-开发环境搭建与工具链

第2课:开发环境搭建与工具链 📚 课程目标 掌握DevEco Studio的下载、安装和配置熟悉HMS Core(华为移动服务)的使用了解鸿蒙模拟器与真机调试环境掌握必备开发工具的使用 🛠️ DevEco Studio环境搭建 2.1 下载与安装…

删掉一个元素以后全为1的最长子数组-滑动窗口

1493. 删掉一个元素以后全为 1 的最长子数组 - 力扣&#xff08;LeetCode&#xff09; Solution #include<iostream> #include<vector> using namespace std;class Solution { public://滑动窗口//动态维护一个窗口&#xff0c;窗口内只能有1个0&#xff0c;记录窗…

【计算机网络 | 第8篇】编码与调制

文章目录通信系统中的编码与调制&#xff1a;从信道基础到信号传输技术一、信道与通信电路&#x1f342;二、三种基本通信方式&#x1f4d6;1. 单向通信&#xff08;单工通信&#xff09;2. 双向交替通信&#xff08;半双工通信&#xff09;3. 双向同时通信&#xff08;全双工通…

当AI遇上终端:Gemini CLI的技术魔法与架构奥秘

"代码不仅仅是指令的集合&#xff0c;更是思想的载体。当AI与终端相遇&#xff0c;会碰撞出怎样的火花&#xff1f;" 在这个AI技术日新月异的时代&#xff0c;Google推出的Gemini CLI无疑是一颗璀璨的明星。它不仅仅是一个命令行工具&#xff0c;更是一个将人工智能无…

ViLU: Learning Vision-Language Uncertainties for Failure Prediction

研究方向&#xff1a;Image Captioning1. 论文介绍本文提出ViLU&#xff08;Vision-Language Uncertainties&#xff09;&#xff0c;一个用于学习视觉语言不确定性量化&#xff08;UQ&#xff09;和检测视觉语言模型故障的事后框架。使用VLMs进行量化&#xff08;UQ&#xff0…

数据集笔记:百度地图高德地图坐标互转

1 为什么会有高德坐标系和百度坐标系&#xff1f;根据《测绘法》和国家保密法规&#xff0c;在中国大陆范围内的地理坐标数据必须做加密处理&#xff0c;不允许直接使用 WGS84&#xff08;openstreetmap&#xff09;所以出现了GCJ-02 和 BD-09高德、腾讯、谷歌中国都遵循 GCJ-0…

SkyWalking高效线程上下文管理机制:确保调用链中traceId来自同一个请求

SkyWalking Agent 能确保获取到“正确”的 traceId,其核心在于它建立并维护了一套高效的线程上下文管理机制。这套机制确保了即使在复杂的多线程、异步环境下,也能将正确的上下文(包含 traceId)与当前正在执行的代码逻辑关联起来。 其工作原理可以概括为下图所示的流程: …

Kafka-Eagle安装

目录Eagle环境安装Mysql环境准备Kafka环境准备Eagle安装Kafka-Eagle框架可以监控Kafka集群的整体运行情况&#xff0c;在生产环境中经常使用 Eagle环境安装 Mysql环境准备 Eagle的安装依赖于Mysql&#xff0c;Mysql主要用来存储可视化展示的数据 将mysql文件夹及里面所有内…

Matlab系列(005) 一 归一化

目录1、前言2、什么是归一化&#xff1f;3、为什么要进行归一化4、归一化方法详解与Matlab实现5、总结1、前言 ​   归一化技术是数据预处理的核心环节&#xff0c;本文将深度解析主流归一化方法&#xff0c;提供可复现Matlab代码&#xff0c;并探讨其在各领域中的应用场景。…

【K8s】整体认识K8s之namespace

命名空间将资源划分为相互隔离的组。kubectl get namespace/ns系统默认创建四个namespace&#xff0c;分别是default、kube-node-lease、kube-public、kube-system。default 没有指明使用其它命名空间的对象所使用的默认命名空间、kube-system 系统创建对象所使用的命名空间。…

rust语言 (1.88) egui (0.32.1) 学习笔记(逐行注释)(十八) 使用表格

使用表格egui_extras::TableBuilder // Cargo.toml [dependencies] eframe "0.32.1" egui "0.32.1" egui_extras "0.32.1"egui_extras::Column::auto() 列宽根据内容自动计算.resizable(true) 允许用户手动拖动调整列宽 fn main() -> efra…

【C#】构造函数实用场景总结

文章目录前言一、构造函数是什么&#xff1f;二、构造函数的用法1.初始化对象&#xff0c;避免无效状态2 初始化静态成员3 构造函数重载4.构造函数链5. 单例模式&#xff0c;多次实例化保持一个对象6. 依赖注入7. 初始化只读对象前言 构造函数是我们平常编程里经常能碰到的老伙…

LLM预训练架构全解析:从零构建一个语言世界的“操作系统”

导读&#xff1a;作为开发者&#xff0c;我们每天都在import或#include各种库&#xff0c;我们信任这些由无数代码构成的底层依赖。那么&#xff0c;当我们调用一个LLM时&#xff0c;它所依赖的那个更底层的、无形的**“语言操作系统”**&#xff0c;又是如何被“编译”出来的&…

Linux服务测试题(DNS,NFS,DHCP,HTTP)

一&#xff0c;实验拓扑&#xff1a;二&#xff0c;需求APPSRV&#xff1a;主机名&#xff1a;appsrv.example.comip地址&#xff1a;192.168.100.10网关&#xff1a;192.168.100.254网卡为NAT模式STORAGESRV&#xff1a;主机名&#xff1a;storagesrv.example.comip地址&#…

DevOps 简介及就业前景

DevOps 简介及就业前景 目录 DevOps简介核心概念重难点解析具体场景使用就业前景学习路径最佳实践 DevOps简介 什么是DevOps DevOps是Development&#xff08;开发&#xff09;和Operations&#xff08;运维&#xff09;的组合词&#xff0c;是一种软件开发和IT运维的文化…

《CF1120D Power Tree》

题目描述 给定一棵有 n 个顶点的有根树&#xff0c;树的根为顶点 1。每个顶点都有一个非负的价格。树的叶子是指度为 1 且不是根的顶点。 Arkady 和 Vasily 在树上玩一个奇怪的游戏。游戏分为三个阶段。第一阶段&#xff0c;Arkady 购买树上的一些非空顶点集合。第二阶段&…