百度文心X1.1发布!实测深度思考能力!

文章目录

    • 背景
    • 模型实测效果
      • 事实性
      • 指令跟随
      • 智能体
    • 模型技术解读
    • 基准测试
    • 文心飞桨携手共进
    • 总结

背景

9月9日,WAVE SUMMIT深度学习开发者大会上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰正式发布了文心大模型X1.1深度思考模型,该模型在事实性、指令遵循、智能体等能力上均有显著提升。目前,用户可以在文心一言官网、文小言APP使用文心大模型X1.1。

据王海峰介绍,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,相比文心X1,X1.1的事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%

在这里插入图片描述

模型实测效果

文心大模型X1.1已全面上线!可在文心一言官网、文小言APP或百度智能云千帆平台,畅享最新模型能力,或直接轻松调用API。

在这里插入图片描述

事实性

先来测测事实性!

国庆我想出去玩,在阿联酋玩3天、阿布扎布玩3天,从南京出发,往返都在⾹港转机停留⼀天,我需要办哪些签证和⼿续吗

回答过程中带有思考和网页参考,同时能够抽取并分析外部信息源。

在这里插入图片描述
在这里插入图片描述

再来个博大精深的!

“意思”在“这是什么意思?”、“这点⼩意思,不成敬意”、”这个景点太没意思了“中含义是否相同?

能够结合语境对多义词语进⾏解释,甚至列出了表格进行对比。

在这里插入图片描述

在这里插入图片描述

指令跟随

下面测试一下指令跟随能力。

你是「⼩红书运营」,负责的领域是外套,擅⻓以当代年轻⼈喜欢的潮流笔撰写⽂案,⾏⽂幽默⻛趣有吸引⼒。请撰写简短的关于宽松装翻领中⻓款⻄装外套的种草⽂案⽂案关键词:⾯对⼥性⽤户、材质是聚酯纤维63%、颜⾊是⿏尾草绿、1件59元、原价135元⽂案。
要求1.⻓句分解、避免重复、轻松幽默且真诚、整体具有可读性2.⽂案不能违反⼴告法,不可出现绝对,⾸选,最好,最佳等词语3.整体4⾏,每⾏以emoji表情开头,每⾏不超过15个字请基于以上要求,尽快撰写出⼀段⽂案。

在复杂指令解析上,它能精准识别⽤户需求细节,避免遗漏关键要素。

在这里插入图片描述

作为‘社恐探店博主’,请以’躲开网红店人潮’为主题,推荐3家南京小众咖啡馆 要求:

  1. 写明适合独处办公的细节(插座数量、安静程度)
  2. 用’发现秘密基地’的惊喜语气
  3. 结尾引导粉丝投稿私藏店铺 使用emoji风格输出

在这里插入图片描述

智能体

最后测试一下智能体效果。

请添加图片描述

ps:多模态能力也很强啊

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

模型技术解读

文心大模型X1.1的模型训练主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习同时融合提升通用任务和智能体任务的效果,另一方面通过自蒸馏数据的迭代式生产及训练不断提升模型整体效果。通过多项技术创新,该模型在智能体、指令遵循和事实性方面的效果表现出色:
1、基于基础模型和策略模型知识一致性的强化学习训练
基于基础模型和策略模型知识一致性的强化学习训练:在训练过程中,不断校验后训练模型和预训练模型知识的一致性,模型的事实性得到了大幅度的提升。
2、基于检查清单和指令验证器的强化学习训练
基于检查清单和指令验证器的强化学习训练:通过自动构建指令检查清单并验证,模型在复杂指令遵循方面的效果明显提升。
3、基于思维和行动链的多轮强化学习训练
基于思维和行动链的多轮强化学习训练:在思考过程中,将思维链和行动链结合,模型的智能体和工具调用能力明显提升。

基准测试

在多个权威基准评测中,文心X1.1整体表现超越DeepSeek R1-0528,在部分任务上展现出领先优势。同时,在与国际顶尖模型GPT-5和Gemini 2.5 Pro相比,效果持平。

在这里插入图片描述

文心飞桨携手共进

  1. 飞桨框架v3.2
    在WAVE SUMMIT深度学习开发者大会现场,百度还发布了全新飞桨框架v3.2,在大模型训练、硬件适配和生态支持上全面升级,并同步升级大模型开发套件ERNIEKit和高效部署套件FastDeploy。飞桨框架v3.2在⼤模型训练、大模型硬件适配、主流⼤模型及⾼性能加速库的⽀持上进⼀步提升。
    1、突破大模型训练技术难题,训练效率更高。包括极致计算优化、高效并行策略和框架原生容错能力。
    2、面向类CUDA芯片,全新升级适配方案。一行代码完成类CUDA算子注册,算子内核复用率高达92%,大幅降低适配成本。
    3、支持业界主流大模型及高性能加速库。原生支持Safetensors权重格式,主流高性能加速库一键接入。
    4、此外,发布⽂⼼⼤模型开发套件ERNIEKit和⼤模型⾼效部署套件FastDeploy v2.2。

  2. 文心飞桨开源及生态建设
    1、6月30日,百度正式开源文心大模型4.5系列模型,涵盖47B、3B激活参数的混合专家(MoE)模型,与0.3B参数的稠密型模型等10款模型,并实现预训练权重和推理代码的完全开源。目前,文心大模型4.5系列开源模型已经在⾏业⾥得到了⼴泛的应⽤。
    2、百度的文心4.5开源模型系列,新增一款思考模型ERNIE-4.5-21B-A3B-Thinking

    • ERNIE-4.5-21B-A3B-Thinking是基于ERNIE-4.5-21B-A3B-Base进⼀步训练⽽来的深度思考模型,升级增加了深度思考能⼒后,该模型在智能体、⼯具调⽤、指令遵循、事实性等⽅⾯表现出⾊,问答、创作、逻辑推理等⽅⾯的综合能⼒明显提升。相⽐于全新发布的文心大模型X1.1,该模型推理速度显著提升。
    • 为了全⽅位⽀持基于⽂⼼⼤模型的创新以及应⽤开发,百度为开发者们量身打造了配套的功能体系。这套体系不仅涵盖⽂⼼4.5系列模型权重,还包括⻜桨框架、ERNIEKit、PaddleFormers以及FastDeploy开源代码库,此外还具备丰富的最佳实践。所有模型和代码都遵循Apache 2.0开源协议,开发者可以⾃由地使⽤、修改和分发。百度期待与开发者⼀起,共同探索⽂⼼⼤模型更⼴阔的应⽤前景。
      3、据最新数据披露,飞桨文心生态开发者达到2333万,服务企业达到76万家。
  3. 文心飞浆联合优化
    在此次发布会上,文心飞浆联合优化主要表现在以下三个方面:
    1、既包括框架-模型的联合优化,也包括框架-算力的联合优化。既有提升训练性能的创新,也有提升推理吞吐的创新。
    2、训练方面,最新发布的飞桨框架v3.2在计算、并⾏策略、容错能⼒三⽅⾯进⼀步升级。极致计算优化方面,提出了存算重叠的稀疏掩码注意⼒计算FlashMask V3,同时实现了⾼效的FP8混合精度效果⽆损训练技术。高效并行策略方面,提出了动态⾃适应的显存卸载策略,以及创新设计的显存友好的流⽔线并⾏调度,进⼀步降低显存开销。框架原生容错能力方面,实现了⼤规模集群训练容错系统,在线监测静默数据损坏等难以察觉的故障,并实现了⾼可⽤的检查点容灾⽅法,降低中断恢复损失。经过上述优化,⽂⼼X1.1及4.5系列模型均获得了优异的性能表现,并在文心最⼤规模的4.5⽂本模型ERNIE-4.5-300B-A47B的预训练上取得了47% MFU。
    3、推理方面,通过卷积编2比特极致压缩,可插拔稀疏化轻量注意力,混合动态自适应多步投机解码,通信存储计算深度协同优化的大规模P/D分离部署等技术,提供大模型高效部署及高性能推理全栈能力。在文心4.5激活参数量47B、总参数量300B的模型ERNIE-4.5-300B-A47B上,通过上述系统性优化,在TPOT 50ms时延条件下,实现了输入吞吐高达57K、输出吞吐29K的卓越性能表现。

总结

从最新发布内容来看,百度正凭借扎实的技术积累与开放的生态策略,持续优化其全栈AI布局——芯片、框架、模型与应用四层架构紧密围绕开发者实际需求展开推进。尤其通过飞桨深度学习平台与文心大模型的深度协同,百度为开发者提供了更加高效、易用的工具链和生态支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/96318.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/96318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Java+SpringBoot的B站评论系统架构设计与实践深度解析

基于JavaSpringBoot的B站评论系统架构设计与实践深度解析 前言 作为国内领先的视频分享平台,B站的评论系统承载着海量用户的实时互动需求。本文将从架构师角度,基于JavaSpringBoot技术栈,深度解析评论系统的技术实现方案、核心难点及扩展性设…

赋能数字孪生:Paraverse平行云实时云渲染平台LarkXR,提供强大的API与SDK用于二次开发和深度集成

在数字孪生渗透千行百业的今天,构建一个高保真、实时交互、可大规模访问的虚拟孪生世界已成为核心需求。然而,对于开发者而言,从零开始构建实时云渲染、海量模型加载、数据双向互通、多端适配、网页嵌套,平台定制化等底层技术难关…

基于Nginx实现反向代理、负载均衡与动静分离完整部署指南

基于Nginx实现反向代理、负载均衡与动静分离完整部署指南 文章目录基于Nginx实现反向代理、负载均衡与动静分离完整部署指南一、架构规划与环境准备1.1 架构设计思路1.2 服务器规划1.3 环境依赖二、部署Nginx负载均衡器2.1 安装Nginx依赖包2.2 创建Nginx专用用户2.3 编译安装Ng…

HTML5国庆网站源码

一. 网站概述 本国庆主题网站以弘扬爱国主义精神为核心,通过丰富多元的交互功能与视觉设计,打造沉浸式国庆体验空间。网站采用单页面架构,通过平滑滚动实现各模块的无缝衔接,涵盖首页、知识科普、互动体验等十大功能板块&#xf…

MySQL收集processlist记录的shell工具mysql_collect_processlist

文章目录安装指南日志文件内容日志分析参考1.简单检索2.统计不同状态的语句的数量3.按照时间统计注意事项仓库这是一个纯脚本工具,用于从MySQL的information_schema.processlist视图中定期收集数据并保存到本地日志文件。支持MYSQL5.7-9.4版本。 template copy fro…

工业RFID现场网关模块:实现多协议互通,128台读写设备互连!

随着工业4.0进程加速,企业对生产系统集成度的需求不断增长。在工厂中常需整合不同品牌PLC、驱动器、机械臂、读写器等设备系统,这其中就会涉及到如Profinet、EtherNet/IP、EtherCAT、Modbus TCP、CC-LINK IE等不同通讯协议连接。虽可将部分设备直接与PLC…

黑马点评高级篇第7节课 输入INFO replication 显示0个从节点,但是在7002节点又显示它已经是7001节点的从节点了

问题描述在黑马点评高级篇第七节课的这个位置​​​​​​,当我输入INFO replication 的时候下面本应该显示为connected_slaves: 2,但是我的显示的是0。然后当我切换到7002端口的节点时,又显示7002就是7001的从节点解决我看弹幕上说在7002和7…

pcb线路板打样厂家有哪些?

在电子制造产业升级浪潮中,PCB打样环节的效率与品质直接影响产品迭代速度。本文聚焦国内五家具备核心技术竞争力的PCB打样厂商,深度解析其差异化优势,为硬件开发者提供精准选型参考。猎板PCB作为国家高新技术企业,猎板PCB在高频高…

【python实用小脚本-211】[硬件互联] 桌面壁纸×Python梦幻联动|用10行代码实现“开机盲盒”自动化改造实录(建议收藏)

1. 场景故事 “作为HR,我曾每天手动换壁纸提神,直到某天忙到忘记,结果被同事截图当‘黑历史’…” → 转折点:用Python调用Windows API写了个“随机壁纸机”,开机自启,每次登录都是新风景,现在截…

集成学习 —— 梯度提升树GBDT、XGBoost

目录 一、梯度提升树 1、残差提升树 Boosting Decision Tree 2、梯度提升树 Gradient Boosting Decision Tree 二、构建案例 1、 初始化弱学习器(CART树): 2、 构建第1个弱学习器 3、 构建第2个弱学习器 4、 构建第3个弱学习器 5、 构建最终弱学习器 6、 构…

【船类】监控录像下船舶类别检测识别数据集:近7k图像,6类,yolo标注

监控录像下船舶类别检测识别数据集概述 数据集包含 6900监控录像下船舶类别图像,6个标注类别: 散货船、集装箱船、渔船、杂货船、矿砂船、客船 标注格式:yolo txt(格式可转,可直接训练) 标注工具&#…

用户故事设计范式(As a... I want to... So that...)

我们来详细解析一下用户故事(User Story),包括其结构、为什么重要、如何编写好的用户故事以及一个完整的示例。1. 用户故事的基本结构:三段式模板最经典和通用的用户故事模板就是您提到的三段式:As a [角色]:目的&…

【OpenGL】LearnOpenGL学习笔记20 - 实例化 Instancing

上接:https://blog.csdn.net/weixin_44506615/article/details/151156446?spm1001.2014.3001.5501 完整代码:https://gitee.com/Duo1J/learn-open-gl | https://github.com/Duo1J/LearnOpenGL 实例化 Instancing 以往当我们在场景中要大量绘制相同模型…

MySQL主从不一致?DBA急救手册:14种高频坑点+3分钟定位+无损修复!

MySQL「主从不一致」最常见的成因、快速定位思路以及可落地的修复手段 一、为什么会不一致?14 类高频场景类别典型表现/触发条件快速自检命令/日志1. 从库被写入业务或 DBA 直连从库 UPDATE/INSERTSHOW VARIABLES LIKE read_only 应为 ON2. 复制过滤规则主从 binlog…

AI 网站源码:探秘 SUNO,革新音乐创作的 AI 先锋

在当今数字化浪潮中,人工智能(AI)正深刻地重塑各个领域,音乐创作也不例外。SUNO 作为一款引领潮流的音乐生成工具,宛如一颗璀璨新星,在音乐创作的天空中熠熠生辉,为音乐爱好者和创作者们带来了前…

Linux:malloc背后的实现细节

目录前言一、先搞懂基础:程序的内存布局(关键前提!)二、malloc的核心实现步骤(4层架构拆解)第1层:用户调用 → 标准库处理(glibc的malloc.c)第2层:堆内存池管…

什么是X11转发?

X11 转发(X11 forwarding,ssh -X)是一种 SSH 协议功能,它允许用户在远程服务器上运行图形化应用程序,并通过本地的显示设备和输入输出设备与这些程序进行交互。它被开发者广泛使用,用于在大规模、异构的服务…

Android Kotlin 动态注册 Broadcast 的完整封装方案

在 Kotlin 中封装动态注册的 Broadcast 可以让你更优雅地管理广播的注册和注销,避免内存泄漏。下面是一个完整的封装方案: 基础封装类 import android.content.BroadcastReceiver import android.content.Context import android.content.Intent import …

VGG改进(8):融合Self-Attention的CNN架构

1. 自注意力机制简介自注意力机制是Transformer架构的核心组件,它能够计算输入序列中每个元素与其他所有元素的相关性。与CNN的局部感受野不同,自注意力机制允许模型直接建立远距离依赖关系,从而捕获全局上下文信息。在计算机视觉中&#xff…

ES6 面试题及详细答案 80题 (33-40)-- Symbol与集合数据结构

《前后端面试题》专栏集合了前后端各个知识模块的面试题,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs&…