GPT-5系列文章2——新功能、测试与性能基准全解析

引言

2025年8月,OpenAI正式发布了其新一代旗舰模型GPT-5。与业界此前期待的AGI(人工通用智能)突破不同,GPT-5更像是OpenAI对现有技术的一次深度整合与用户体验优化。本文将全面解析GPT-5的新特性、实际测试表现以及官方发布的基准数据,帮助开发者与普通用户了解这一最新AI模型的真实能力与应用场景。

什么是GPT-5?

GPT-5是OpenAI推出的新一代旗舰模型,它完全取代了GPT-4时代的各种变体模型。与此前用户需要在GPT-4o、GPT-4o-mini、o3等不同版本间手动选择不同,GPT-5采用了智能路由机制,系统会根据任务类型自动决定使用快速响应还是深度推理模式。

模型的核心创新在于其统一架构设计:

  • 自动路由:根据输入提示实时决定响应策略
  • 统一体验:单一模型名称,一致的行为表现
  • 可选模式:仍保留GPT-5 Thinking(深度思考)和GPT-5 Pro(专业研究)等特殊模式

gpt-5 model picker

GPT-5的新功能

用户体验优化

  1. 界面个性化

    • 自定义聊天界面颜色主题

    how to change the chat color in chatgpt

    • 预设个性风格选择(支持型、简洁专业型、轻微讽刺型等)
      在这里插入图片描述

    • 个性风格在整个对话中保持稳定

  2. 生产力整合

    • Gmail和Google日历深度集成(仅限付费用户)

    how to connect gmail and google calendar in chatgpt

    • 自动日程管理功能
    • 邮件草拟与回复建议
  3. 安全改进

    • 采用"安全完成"机制替代简单拒绝
    • 提供最大限度的有用信息同时说明限制
    • 减少阿谀奉承式的回答

开发者专项功能

# 示例:使用reasoning_effort参数控制推理深度
response = openai.ChatCompletion.create(model="gpt-5",messages=[{"role": "user", "content": "解释量子纠缠现象"}],reasoning_effort="high",  # 可选:minimal/medium/highverbosity="medium"       # 控制回答长度
)
  1. 精细控制

    • reasoning_effort参数控制推理深度
    • verbosity参数调整回答长度
  2. 工具调用改进

    • 支持纯文本工具调用(替代JSON)
    • 自定义工具格式约束(正则/完整语法)
  3. 长时任务支持

    • 显著提升多步骤代理任务能力
    • 支持数十个工具调用的串联/并行

详细信息可以参考这篇文章:《ChatGpt 5系列文章1——编码与智能体》

测试GPT-5的实际表现

数学能力测试

基础算术

  • 9.11 - 9.9 = 0.21 (即时正确解答)
  • 采用思维链推理(内部将9.9重写为10-0.1)

复杂问题

使用0-9所有数字各一次组成x+y=z的三个数字
  • 30秒思考后给出两个正确答案
  • 内部使用"快速程序"解决排列问题

img

长上下文多模态测试

欧盟委员会AI报告分析(167页)

  • Pro账户(128K tokens)仍出现明显问题
  • 免费账户(8K tokens)完全无法处理
  • 识别信息图表任务表现不佳

测试结果表明,尽管GPT-5在官方基准测试中长上下文表现有所提升,但在实际复杂文档处理中仍存在显著局限。

img

GPT-5基准测试数据

编码性能

测试项目GPT-5得分GPT-4.1得分提升幅度
SWE-bench Verified74.9%54.6%+37%
Aider Polyglot88%81%+8.6%

效率提升:

  • 高推理任务输出token减少22%
  • 工具调用减少45%

gpt-5 benchmarks on swe-bench

数学与科学推理

  1. 竞赛数学

    • AIME 2025: 94.6%(无工具)
    • HMMT: 93.3%(无工具)
  2. 前沿数学

    • FrontierMath: 26.3%(使用Python工具)
  3. 博士级科学

    • GPQA Diamond: 87.3%(有工具)

gpt-5 aime 2025 benchmark

多模态推理

  1. 视觉推理

    • MMMU(大学级): 84.2%
    • MMMU-Pro(研究生级): 78.4%
  2. 视频理解

    • VideoMMMU(256帧): 84.6%
  3. 专业领域

    • CharXiv Reasoning: 81.1%
    • ERQA空间推理: 65.7%

极限测试:Humanity’s Last Exam

这个包含2,500个博士级问题的测试集结果显示:

  • GPT-5无工具: 24.8%
  • GPT-5 Pro: 42.0%
  • Grok 4 Heavy: 50.7%

表明在多代理协作方面,xAI的Grok 4架构仍保持领先。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/93235.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/93235.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用cursor+MCP实现浏览器自动化释放双手

小伙伴们,我们今天利用cursorMCP实现浏览器自动化,释放双手,工作效率嘎嘎提升!前期准备:安装node.js网址:https://nodejs.org/zh-cn下载下来安装即可。 下载browser-tools-mcp扩展程序:下载扩展…

指针/边界索引混淆梳理

在处理数组/链表等数据结构时,时常混淆长度和指针序号。处理技巧:使用0-base索引。则区间长度 rightIndex - LeftIndex 1总长度 lastIndex - firstIndex 1链表创建一个dummy节点,添加到head前,则可认为从索引0开始。末尾指针判…

LeetCode 刷题【43. 字符串相乘】

43. 字符串相乘 自己做 解1:矩阵计数 class Solution { public:string multiply(string num1, string num2) {int len1 num1.size();int len2 num2.size();if (num1[0] 0 || num2[0] 0) //结果为0的情况return "0";//存储计算过程的矩阵vector…

NLP数据增强方法及实现-A

目录 词替换 主要参考:paddlenlp/data_aug模块 词替换数据增强策略也即将句子中的词随机替换为其他单词进行数据增强,这里我们将介绍如何使用paddlenlp.dataaug.WordSubstitute进行词级别替换的数据增强。 WordSubstitute 参数介绍:aug_ty…

EhViewer安卓ios全版本类下载安装工具的完整路径解析

开发一款类似EhViewer的下载安装工具(集下载管理、应用部署等功能于一体),需要经历从需求锚定到落地发布的系统性流程。以下从需求拆解到技术落地的全维度指南,将帮你理清开发脉络,避开常见陷阱。安装 GitHub - huangy…

MySQL 主键详解:作用与使用方法

在 MySQL 数据库中,主键(Primary Key) 是表结构设计中最重要的约束之一。它不仅是数据唯一性的保障,也是多表关联、查询优化的核心工具。本文将从 主键的作用 和 主键的用法 两个方面进行讲解,并配合代码示例帮助理解一…

lib.dom.d.ts

lib.dom.d.ts 是一个 TypeScript 类型声明文件,它是 TypeScript 标准库的一部分,用于定义浏览器 DOM(文档对象模型)相关的类型和接口。这个文件为开发者提供了浏览器中所有内置的 DOM 类型的定义,包括 localStorage、d…

Spring 工具类:StopWatch

StopWatch 是 Spring 框架提供的一个简单而强大的计时工具类,用于测量代码块的执行时间。它特别适合在开发阶段进行性能分析、调试和优化。 基本使用方法 // 创建 StopWatch 实例(可指定 ID) StopWatch stopWatch new StopWatch("性能分…

解决 VSCode 运行 Python 时 ModuleNotFoundError: No module named ‘open_webui‘ 问题

目录 1. 问题原因分析 2. 解决思路 3. 解决步骤 3.1 打开或创建 .vscode/launch.json 3.2 添加调试配置 3.3 配置说明 3.4 运行测试 4. 总结 在使用 VSCode 调试 Python 项目时,我们经常会遇到类似下面的错误: Exception has occurred: ModuleN…

Python基础-数据结构

数据结构 Python提供了四种主要的内置数据结构:列表(List)、元组(Tuple)、字典(Dictionary)和集合(Set)。每种数据结构都有其特定的用途和特性。 Python数据结构概览&…

NLP学习之Transformer(1)

初识 Transformer (1) 1.简介 1.1主要特点: self-attention: 自注意力机制,Transformer的核心是自注意力机制,它允许模型在处理某个位置的输入时,能够直接与其他位置的输入交互,而不…

C语言笔记6:C高级 part1

1.gcc 编译器 编译流程 预处理-》编译》汇编》链接》 E 预处理的命令 S 编译汇编代码 -c汇编阶段命令 -o 输出对应的文件GDB调试工具2.作用域存储分类// C高级部分知识多, 加上这周 我学的知识量有点爆炸。家里又有事情,这周末要回老家 争取下周补齐吧。…

A12预装app

在A12上预装应用,出现了一个异常。在此记录问题描述:在A12上预装应用按照A13的预装方案报错,mk文件如下:LOCAL_PATH : $(call my-dir) include $(CLEAR_VARS) LOCAL_MODULE_TAGS : optional LOCAL_MODULE : Tideen_PTT LOCAL_MODU…

termios 线程 poll epoll进化 二叉AVL红黑树

struct termios tio 是什么 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <fcntl.h> #include <termios.h>#define SERIAL_PORT "/dev/ttyS0" #define BUF_SIZE 256int main(v…

C++设计模式:类间关系

类封装了数据和行为&#xff0c;是面向对象的重要组成部分&#xff0c;它是具有相同属性、操作、关系的对象集合的总称。在系统中&#xff0c;每个类都具有一定的职责&#xff0c;职责指的是类要完成什么样子的功能&#xff0c;要承担什么样子的义务。一个类可以有多种职责&…

MSYS2+CMake配置C/C++开发环境

目录一、MSYS2是什么1.1 核心架构与组件​​1.1.1 背景介绍1.1.1.1 Cygwin1.1.1.2 MinGW和Mingw-w641.1.1.3MSYS和MSYS21.1.2 技术基础​​1.1.3 多环境支持​​1.2 核心功能​​1.2.1 类Unix开发环境​​1.2.2 开发工具链​​1.2.3 软件仓库与包管理​​二、安装和配置2.1 配置…

Vue 3 + TypeScript:package.json 示例 / 详细注释说明

一、示例 / 详细注释说明 {// 项目基础信息"name": "vite-project", // 项目名称&#xff08;建议使用 kebab-case 格式&#xff09;"private": true, // 标记为私有项目&#xff0c;避免意外发布到 npm"version": "1.0.…

SpatialVLM和SpatialRGPT论文解读

目录 一、SpatialVLM 1、概述 2、方法 3、实验 二、SpatialRGPT 1、概述 2、方法 3、训练方法 4、实验 一、SpatialVLM 1、概述 SpatialVLM是最早的依赖传统VLMs实现3D空间推理能力的论文&#xff0c;在24年1月由DeepMind团队提出&#xff0c;当时对比的还是GPT4v&am…

理解GPU架构:基础与关键概念

GPU 基础概述&#xff1a;从图形渲染到 AI 与高性能计算的核心 Graphics Processing Units&#xff08;GPU&#xff09;已从专用的图形渲染硬件演进为 AI、科学计算与高性能任务的中坚力量。本文将介绍 GPU 架构的基础知识&#xff0c;包括其组成部分、内存层次结构&#xff0c…

订单状态定时处理(Spring Task 定时任务)

订单状态定时处理 如果最后一秒刚好支付了咋办?如何补偿? 需要将支付状态和订单状态一起考虑,或者直接使用状态机 Spring Task 是Spring框架提供的任务调度工具,可以按照约定的时间自动执行某个代码逻辑。 **定位:**定时任务框架 **作用:**定时自动执行某段Java代码 …