字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍

扩散模型写代码,不仅像开了倍速,改起来还特别灵活!

字节Seed最新发布扩散语言模型Seed Diffusion Preview,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技术,在推理速度上表现出色。

它的代码推理速度能达到2146 tokens/s,比同类的Mercury和Gemini Diffusion等模型快不少,同时比同等规模的自回归模型快5.4倍,并且在代码编辑任务中更具优势。

Seed Diffusion Preview以结构化的代码生成为实验领域,系统性地验证离散扩散技术路线作为下一代语言模型基础框架的可行性。

下面介绍它的具体技术细节。

核心是两阶段训练学习

自回归模型存在串行解码延迟瓶颈,理论上,扩散模型的并行生成潜力和整体性生成的优势可以解决自回归模型推理速度局限这一痛点。

但理论优势与实际效果还是有差距,离散扩散模型在语言任务中的大规模部署仍面临两大核心瓶颈:归纳偏置冲突和推理效率瓶颈。

为解决上述问题,Seed Diffusion Preview采用了四项关键的技术创新。

两阶段训练

两阶段训练是模型的核心训练策略。

这是针对离散扩散过程设计的渐进式训练方案,两个阶段分别采用不同的corruption过程(即对原始数据的扰动方式)。通过分阶段优化模型对token的理解与生成能力,平衡训练效率与生成质量。

第一个阶段是基于掩码的扩散训练,学习上下文补全,占整个训练步骤的80%。

目标是将原始序列中的token替换为特殊的[MASK]标记,让模型学习从部分被掩盖的序列中恢复原始token,以此奠定基础的语言建模能力。

第二个阶段是基于编辑的扩散训练,增强全局的合理性。

掩码训练可能带来“捷径依赖”的问题——优先利用未掩码token的局部关联性进行恢复,而非理解整个序列的全局逻辑。

此阶段的目标就是通过插入、删除、替换等编辑操作对原始序列进行扰动,并用编辑距离衡量扰动程度,编辑次数由特定函数控制在合理范围内,打破模型对未掩码token的错误认知,迫使模型重新评估所有token。

实证表明,引入编辑阶段后,模型在代码修复基准CanItEdit上的pass@1对比自回归模型(AR模型)提升了4.8%(54.3vs.50.5),明显增强了模型的代码逻辑理解与修复能力。

Seed Diffusion Preview的测试结果验证了了离散扩散路线在大语言模型推理上的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/91771.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/91771.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

海洋大地测量基准与水下导航系列之九我国海洋PNT最新技术进展(下)

三、海洋PNT技术装备研发与工程化应用 1.海底基准装备 研制了首批适应海洋环境的多型海底基准站装备,在我国南海海域成功布设了定位精度优于0.25m的海底大地测量试验基准网,实现了我国海底大地测量基准技术零的突破。基准方舱具备稳固、抗压、防腐、防…

入门MicroPython+ESP32:安装逗脑IDE及驱动

本篇文章将手把手带大家入门MicroPython ESP32,重点介绍逗脑IDE的安装过程以及相关驱动的安装。 一、下载逗脑IDE 要开始使用逗脑IDE,首先需要从官网下载最新版本。请访问以下网址进行下载:https://www.itprojects.cn/ide 下载时的界面大…

CentOS上部署Redis及其哨兵(Sentinel)模式

架构:说明我这里是伪集群的,redis 在同一台机器,Sentinel 只有一个,也存在单点故障问题只能当作开发环境使用,要满足生产至少是下面这种架构 ------------------- ------------------- ------------------- …

《软件测试与质量控制》实验报告二 单元测试

目 录 一、实验学时 二、实验目的 三、实验环境 (一)硬件环境: (二)软件环境: 四、实验内容 1、实验方案: 2、实验步骤: 3、设计思路: 1、安装JUnit和Eclemma…

k8s模式部署PolarDB-X

当前文档适配PolarDB-X V2.4.0 版本 环境描述: 部署机(ops)1x2.2x.2x8.116,部署机需要可以访问互联网。使用ansible进行部署,自行安装ansible。需要部署两个k8s集群,分别在其上安装一个polardb-x集群。 部…

Flask + YARA-Python*实现文件扫描功能

以下是一个 完整的 Web API 示例,使用 Flask YARA-Python 实现文件扫描功能,支持上传文件并返回 YARA 规则匹配结果。 ✅ 功能说明 提供一个 /scan 接口,支持文件上传使用预加载的 YARA 规则进行扫描返回 JSON 格式的匹配结果支持多规则、可…

WinForm之NumericUpDown控件

NumericUpDown(数字上下控件)是 WinForm 中专门用于输入和调整数值的控件,它结合了文本框和上下按钮,用户可通过点击按钮或直接输入来设置数值,且能严格限制数值范围(最小值、最大值)和步长&…

一文读懂K8S kubectl 命令,运维小白必看!

一、Kubectl 是什么? Kubectl 是 Kubernetes(简称 K8S)集群的命令行工具,它就像是一把万能钥匙,让我们可以与 K8S 集群进行交互,轻松管理集群中的各种资源,像是 Pod、Service、Deployment 等等。通过向 K8S API 发送 REST 请求,kubectl 实现了对集群资源的增删改查等操…

髋臼方向的定义与测量-I

近期看到关于髋臼方向不同应用场景下的不同定义,觉得特别有意思,但是,原文是影印本,不太方便实用屏幕取词翻译,且一些专业术语也不太好理解。 因此,我将原文和翻译整理了一些,不对的地方&#x…

Python爬虫实战:研究mahotas库,构建图像获取及处理系统

一、引言 (一)研究背景 在信息爆炸的时代,图像作为一种直观、丰富的信息载体,其数量在互联网上呈现指数级增长。这些图像数据涵盖了自然景观、动植物、工业产品等多个领域,为模式识别、机器学习等研究提供了宝贵的数据源。特别是在植物学研究领域,叶片图像包含了丰富的…

【04】海康相机C#开发——VS 在编译时,提示“Files的值“+乱码情况解决办法’ ,C#项目打开编译时报错:Files 的值“IGEF‘,

文章目录C#项目打开,用VS 在编译时编译时报错:Files 的值“乱码; 有的编译器会显示:Files的值“IGEF 以上报错都为同一种错误,.net中的配置文件乱码导致的: 找到项目目录下的“..\obj\Debug\”的文件夹中…

MySQL隐式转换陷阱:从错误查询案例解析索引失效与数据类型匹配

开始之前,先问个问题问题:mysql 数据类型是date ,怎么写查询条件索引有效? ——下面带着疑问看下去。 一、mysql-8.隐式转换导致索引失效或查出不符合where条件结果 今天在执行一条sql语句时候,where条件写错了&#x…

【sklearn(01)】数据集加载、划分,csv文件创建,特征工程,无量纲化

目录sklearn数据集玩具数据集现实世界数据集加载玩具数据集获取现实世界数据集本地csv数据创建csv文件pandas加载csv数据集划分特征工程步骤特征工程APIDictVectorizer 字典列表特征提取APICountVectorizer 文本特征提取API英文文本提取中文文本提取TfidfVectorizer TF-IDF文本…

docker desktop入门(docker桌面版)(提示wsl版本太低解决办法)

参考文章:Docker Desktop Engine Stopped原因分析(docker桌面停止)WSL没装或没更新 文章目录Docker Desktop入门指南1. Docker Desktop简介2. 安装Docker Desktop2.1 系统要求2.2 下载和安装3. 配置Docker Desktop修改默认存储路径4. 运行你的…

《n8n基础教学》第三节:模拟一个自动化场景

1、模拟场景Nathan 🙋是 ABCorp 的分析经理,他的工作是支持 ABCorp 团队的报告和分析。作为一个真正的多面手,他还负责处理一些杂项任务。Nathan 做的一些事情是重复且枯燥的。他希望自动化其中一些任务,以避免精疲力竭。作为一名…

CodeRush AI 助手进驻 Visual Studio:AiGen/AiFind 亮相(三)

CodeRush 是专为 Visual Studio 打造的高效开发插件,通过集成 AI 驱动功能(如自然语言生成代码的 AiGen 和智能搜索逻辑的 AiFind)、语音交互及深度重构工具,直接在 IDE 内无缝完成代码生成、修改与导航,消除窗口切换与…

如何从头开始搭建属于自己的家用nas实现内网穿透访问

最近我在家部署了群晖NAS923,从而实现内网穿透,下面写一个新手向教程: 一、硬件安装与初始化设置 1. 硬盘安装(已完成可跳过) 群晖 923 支持 4 块 3.5 英寸硬盘,开箱后取出硬盘架,将硬盘&am…

mysql 之多表

mysql之多表已知2张基本表:部门表:dept (部门号,部门名称);员工表 emp(员工号,员工姓名,年龄,入职时间,收入,部门号)CREATE table dep…

【Django】-6- 登录用户身份鉴权

一、🛡️ Django 鉴权 & 登录控制 Django 自带的鉴权系统(用户身份管理小管家)鉴权系统能干啥?Django 自带的鉴权系统,就像一个 “用户身份管家” ,帮你管好这些事儿:功能类比加密存储用户密…

winscp 连openwrt 返回127错误码

winscp 连openwrt 24.10返回127错误码。找了许多原因也没搞清为啥(客户端加密方式、winscp版本过低等都试过),用SecureFx试了一下,发现是openwrt 24.10固件没有安装Sftp服器,用下列命令安装即可。opkg install openssh…