OpenAI 的 GPT-5 来了

OpenAI 推出了新的旗舰 AI 模型 GPT-5,它将为该公司的下一代 ChatGPT 提供支持。

https://openai.com/index/introducing-gpt-5/

GPT-5 于周四发布,是 OpenAI 首个“统一”AI 模型,它将O 系列模型的推理能力与GPT 系列的快速响应能力相结合。下一代模型标志着 ChatGPT 及其创建者 OpenAI 的新纪元,也表明 OpenAI 的宏伟目标:开发更像代理而非聊天机器人的 AI 系统。

GPT-4使人工智能聊天机器人能够对各种问题提供智能响应,而GPT-5 则使 ChatGPT 能够代表用户完成各种任务,例如生成软件应用程序、浏览用户日历或创建研究简报。

OpenAI也致力于通过 GPT-5 简化 ChatGPT 的使用。GPT-5 不再要求用户选择正确的设置,而是配备了一个实时路由器,可以决定如何提供最佳答案,无论是快速回复用户问题,还是花费更多时间“思考”答案。

OpenAI 首席执行官 在与记者的吹风会上声称 GPT-5 是“世界上最好的模型”,并表示这代表着该公司在开发能够在最具经济价值的工作上超越人类的人工智能(即通用人工智能 (AGI))的道路上迈出了“重要一步”。

在历史上的任何时候,拥有像 GPT-5 这样的东西都是几乎不可想象的。

从周四开始,GPT-5 将作为 ChatGPT 的所有免费用户默认模型。这是公司首次向免费用户开放 AI 推理模型的努力之一。(此前,该公司将这些更先进的模型置于付费墙之后。)

OpenAI 的长期使命,即让尽可能多的人享受先进的人工智能,确保这些东西真正造福人类。

人们对 GPT-5 寄予厚望,这是 OpenAI 自 2022 年推出 ChatGPT 以来最受期待的产品之一。自那时起,ChatGPT 已发展成为全球最受欢迎的消费产品之一,每周覆盖超过 7 亿用户,据该公司称,这几乎占全球人口的 10%。

许多人将 GPT-5 视为人工智能广泛进步的风向标,而硅谷对该模型的接受程度可能对大型科技公司、华尔街以及监管技术的政策制定者产生深远影响。这些利益相关者正在关注 GPT-5 能否显著提升人工智能的能力,就像其前身 GPT-4 一样,后者挑战了人们对软件功能的预期。

GPT-5 在竞争中略占优势

OpenAI 声称 GPT-5 在多个领域都达到了领先水平,在关键基准测试中略胜 Anthropic、谷歌 DeepMind 和埃隆·马斯克的 xAI 等领先的 AI 模型。然而,GPT-5 在其他领域的表现略逊于前沿 AI 模型。

该公司表示,GPT-5 在编码方面提供了前沿水平的性能;奥特曼表示,该模型尤其擅长按需启动整个软件应用程序,即所谓的“氛围编码”。

在 SWE-bench Verified(一项从 GitHub 获取的真实世界编码任务测试)中,GPT-5 首次尝试得分高达 74.9%。这意味着 GPT-5 的表现略胜于 Anthropic 最新的 Claude Opus 4.1 模型(得分为74.5%)和谷歌 DeepMind 的 Gemini 2.5 Pro(得分为59.6%)。

在“人类的最后考试”(一项衡量数学、人文和自然科学领域人工智能模型表现的难度较高的测试)中,具有扩展推理功能的 GPT-5 版本(GPT-5 Pro)在使用工具的情况下得分为 42%。这一得分略低于 xAI 的Grok 4 Heavy,后者在测试中的得分为 44.4%。

在 GPQA Diamond(一项针对博士级科学问题的测试)中,GPT-5 pro 首次尝试就获得了 89.4% 的得分,超过了得分 80.9% 的 Claude Opus 4.1 和得分 88.9% 的 Grok 4 Heavy。

OpenAI 表示,GPT-5 更适合回答健康相关问题。在 HealthBench Hard Hallucinations 测试中,OpenAI 表示,在衡量 AI 模型在医疗保健主题响应准确度的测试中,GPT-5(具有思考能力)的幻觉出现率仅为 1.6%。这远低于该公司之前的 GPT-4o 和 o3 模型,后两者的得分分别为 12.9% 和 15.8%。

虽然人工智能聊天机器人并非医疗专业人士,但数百万人正在使用它们来获取健康建议。针对这一现象,该公司表示,GPT-5 能够更主动地标记潜在的健康问题,并帮助用户解析医疗结果。

此外,OpenAI 表示,GPT-5 在创意设计和写作等更难衡量的主观领域比其他 AI 模型表现更出色。GPT-5 在创意任务上比其他 AI 模型反应更自然,并且展现出“更佳的品味”。

GPT-5 也比 OpenAI 之前的模型更准确,该公司表示,与 O 系列模型相比,GPT-5 受到幻觉(AI 模型编造信息的倾向)的影响要小得多。在 OpenAI 最新的 AI 推理模型(例如 O3)中,幻觉似乎越来越严重,OpenAI 此前曾表示,它不太理解为什么会出现这种情况。

OpenAI 发现,在 ChatGPT 提示的响应中,GPT-5(具有思考能力)出现幻觉并提供错误信息的概率为 4.8%。这与 GPT-o3 和 GPT-4o 相比显著降低,后两者在测试中的幻觉发生率分别为 22% 和 20.6%。

在衡量AI模型完成模拟在线任务的代理能力的基准测试Tau-bench中,GPT-5的表现参差不齐。在衡量AI浏览航空公司网站能力的测试部分,GPT-5的得分为63.5%,略低于o3的64.8%。在衡量AI浏览零售网站能力的另一部分测试中,GPT-5的得分为81.1%,低于Claude Opus 4.1的82.4%。

OpenAI 还表示,GPT-5 比之前的模型更安全。虽然人工智能推理模型偶尔会表现出针对人类的阴谋或为实现自身目标而撒谎的倾向,但 OpenAI 发现 GPT-5 的欺骗率低于其他模型。

OpenAI 安全研究负责人表示,减少欺骗不仅可以提高 GPT-5 的安全性,还可以提高用户体验,创建一个“更加透明和诚实,让用户可以信任”的模型。

GPT-5 能够更好地识别试图滥用 ChatGPT 的恶意用户和提出无害请求的用户。这使得 GPT-5 能够拒绝更多不安全的问题,同时减少对寻求无害信息的用户的拒绝次数。

为消费者和开发者提供升级

作为 GPT-5 发布的一部分,ChatGPT 的用户体验得到了一些升级。用户现在可以在 ChatGPT 的设置中选择四种新的性格:愤世嫉俗者、机器人、倾听者和书呆子。该公司表示,这些性格将调整 ChatGPT 的响应方式,而无需用户专门要求模型以某种方式响应。

ChatGPT 每月 20 美元的 Plus 套餐订阅用户可获得比免费用户更高的 GPT-5 使用限制。同时,每月 200 美元的 Pro 套餐订阅用户将可以无限制使用 GPT-5,以及名为 GPT-5 Pro 的增强版,该版本使用额外的计算资源来生成更准确的答案。OpenAI 的 Team、Edu 和 Enterprise 套餐用户将于下周将 GPT-5 作为其默认模型。

对于开发者来说,GPT-5 将以三种版本(GPT-5、GPT-5-mini 和 GPT-5-nano)加入 OpenAI 的 API,它们将花费更多或更少的时间进行“推理”任务。开发者现在还可以控制 OpenAI API 中的详细程度,决定 AI 模型的响应时长。

GPT-5 的基础模型将花费开发人员每百万输入令牌 1.25 美元(约 750,000 个单词,比整个《指环王》系列还要长),每百万输出令牌 10 美元。

GPT-5 的发布正值 OpenAI 忙碌的一周之后。该公司发布了一个开放权重推理模型gpt-oss,开发者和企业可以免费下载,并以极低的成本运行。该开放模型的性能几乎与 OpenAI 之前的顶级模型 o3 和 o4-mini 相当,但 GPT-5 在某些领域(例如编码)为前沿性能树立了新的标准。

然而,GPT-5 似乎在多个领域与其他前沿 AI 模型大致相当。当然,基准测试只能反映任何 AI 模型的部分情况,开发者将如何在现实世界中使用 GPT-5,以及该模型是否真正领先于竞争对手,仍有待观察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/92604.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/92604.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring AMQP 入门与实践:整合 RabbitMQ 构建可靠消息系统

Spring AMQP 入门与实践:整合 RabbitMQ 构建可靠消息系统 一、Spring AMQP 是什么? Spring AMQP(Application Messaging Protocol)是 Spring 官方提供的对 AMQP 协议的封装,其核心模块有两个: spring-am…

图像处理控件Aspose.Imaging教程:使用 C# 将 SVG 转换为 EMF

Aspose.Imaging for .NET是一款深受 .NET 开发人员喜爱的图像处理 SDK,因为它灵活且易于开发人员使用。EMF 图像文件格式提供出色的打印质量和可扩展性。此外,这种图像文件格式还节省存储空间。Aspose.Imaging for .NET 能够使 SVG 到 EMF 的转换变得简…

网络编程——套接字

目录 一、Socket套接字 (一)概念 (二)分类 1.流套接字: 2.数据报套接字 3.原始套接字 二、TCP协议VSUDP协议 (一)有连接VS无连接 (二)可靠传输VS不可靠传输 &a…

Git 基础操作笔记(速查)

1. 初始化仓库git init在当前文件夹初始化一个新的 Git 仓库。2. 克隆仓库git clone <仓库地址>从远程仓库复制项目到本地。3. 查看文件状态git status查看工作区和暂存区的文件状态。4. 添加文件到暂存区git add <文件名> git add . # 添加所有改动文件5. 提…

【并查集】P3367 【模板】并查集

P3367 【模板】并查集 题目背景 本题数据范围已经更新到 1≤N≤21051\le N\le 2\times 10^51≤N≤2105&#xff0c;1≤M≤1061\le M\le 10^61≤M≤106。 题目描述 如题&#xff0c;现在有一个并查集&#xff0c;你需要完成合并和查询操作。 输入格式 第一行包含两个整数 N,MN,M…

MyBatis流式查询详解

MyBatis 流式查询详解&#xff1a;ResultHandler 与 Cursor 在业务中&#xff0c;如果一次性查询出百万级数据并返回 List&#xff0c;很容易造成 OOM 或 长时间 GC。 MyBatis 提供了 流式查询&#xff08;Streaming Query&#xff09; 能力&#xff0c;让我们可以边读边处理&a…

1Panel Agent 证书绕过实现远程命令执行漏洞复现(CVE-2025-54424)

免责申明: 本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权,请及时与我们联系,我们将尽快处理并删除相关内容。 前…

kettle插件-kettle http post plus插件,轻松解决https post接口无法调用文件流下载问题

场景&#xff1a;小伙伴在使用kettle调用https post接口过程中无法正常调用&#xff0c;程序出错问题&#xff0c;今天演示下用自研插件轻松解决这个问题。1、使用openssl 生成自签名证书openssl req -x509 -newkey rsa:4096 -nodes -out cert.pem -keyout key.pem -days 3652、…

剑指offer第2版——面试题2:实现单例

文章目录一、题目二、考察点三、答案3.1 C11写法3.2 C98写法&#xff08;线程安全只存在于懒汉模式&#xff09;3.2.1 小菜写法3.2.2 小菜进阶写法3.2.3 中登写法3.2.3 老鸟写法四、扩展知识4.1 饿汉模式和懒汉模式的区别4.1.1 饿汉模式&#xff08;Eager Initialization&#…

OpenAI开源大模型gpt-oss系列深度解析:从120B生产级到20B桌面级应用指南

引言&#xff1a;OpenAI开源里程碑&#xff0c;AI民主化加速到来 2025年8月&#xff0c;OpenAI正式宣布开源其两款重磅大语言模型——gpt-oss-120b&#xff08;1200亿参数生产级模型&#xff09;和gpt-oss-20b&#xff08;200亿参数桌面级模型&#xff09;&#xff0c;引发全球…

本地部署文档管理平台 BookStack 并实现外部访问( Windows 版本)

BookStack 是一款专注于书籍、文档管理的开源平台&#xff0c;它界面设计直观简洁&#xff0c;功能强大且易于使用&#xff0c;允许用户创建、组织和分享文档资料&#xff0c;特别适合用于构建内部文档系统、知识库或公开的文档站点。本文将详细介绍如何在 Windows 系统本地部署…

VS Code编辑器

实际上&#xff0c;‌Visual Studio Code&#xff08;简称VS Code&#xff09;‌是由微软开发的免费、开源、跨平台的代码编辑器&#xff0c;支持多种编程语言和框架&#xff0c;广泛应用于现代Web和云应用开发。这也是个编辑器&#xff0c;可能是继 GitHub 的 Atom 之后的一枝…

自动化测试篇--BUG篇

目录 一.软件测试的生命周期 二.bug是什么&#xff1f; 三.如何描述一个bug&#xff1f; 四.bug的级别 五.bug的生命周期 六.测试与开发产生争执怎么办&#xff1f;&#xff08;重要&#xff01;&#xff01;&#xff01;&#xff09; 一.软件测试的生命周期 软件测试人员…

Solidity智能合约基础

基础学习使用 remix&#xff1a;ide Remix - Ethereum IDE evm&#xff1a;ethreum virtual machine evm字节码 强类型脚本语言 compile >evm bytescode >evm hello的样例 声明的关键字&#xff1a;contract // SPDX-License-Identifier: MIT pragma solidi…

Unity跨平台超低延迟的RTSP/RTMP播放器技术解析与实战应用

✳️ 引言&#xff1a;为什么说 Unity 中的视频能力是“可视化神经元”&#xff1f; 随着“可视化 实时性”成为工业数字化的关键支撑&#xff0c;Unity 正从传统游戏引擎&#xff0c;演进为数字孪生系统、智能机器人中控、虚拟交互平台、XR 可视引擎等领域的底层核心。它不再…

python学智能算法(三十三)|SVM-构建软边界拉格朗日方程

【1】引用 在前序学习进程中&#xff0c;我们初步了解了SVM软边界&#xff0c;今天就更进一步&#xff0c;尝试构建SVM软边界的拉格朗日函数。 【2】基本问题 在SVM软边界中&#xff0c;我们已经获得此时的最优化几何距离的表达式&#xff1a; fmin⁡12∣∣w∣∣2C∑i1nξif…

【YOLOv5】

Focus模块&#xff1a;早期再yolov5版本提出&#xff0c;后期被常规卷积替换&#xff0c;作用是图像进入主干网络之前&#xff0c;进行隔行隔列采样&#xff0c;把空间维度堆叠到通道上&#xff0c;减少计算量。 SPPF:SPP的改进版本&#xff0c;把SPP的不同池化核改变为K 5 的…

Pytest项目_day05(requests加入headers)

headers 由于每个请求都需要加入一些固定的参数&#xff0c;例如&#xff1a;cookies、user-agent&#xff0c;那么将这些固定参数放入URL或params中会显得很臃肿&#xff0c;因此一般将这些参数放在request headers中headers的反爬作用 在豆瓣网站中&#xff0c;如果我们不加入…

安全引导功能及ATF的启动过程(四)

安全引导功能及ATF的启动过程&#xff08;四&#xff09; ATF中bl31的启动 在bl2中触发安全监控模式调用后会跳转到bl31中执行&#xff0c;bl31最主要的作用是建立EL3运行态的软件配置&#xff0c;在该阶段会完成各种类型的安全监控模式调用ID的注册和对应的ARM核状态的切换&am…

从手工到智能决策,ERP让制造外贸企业告别“数据孤岛“降本增效

在全球化竞争加剧的当下&#xff0c;制造型外贸企业正面临订单碎片化、供应链复杂化、合规风险上升等多重挑战。数字化转型已成为企业突破增长瓶颈、构建核心竞争力的必选项。然而&#xff0c;许多企业在推进过程中因选型不当陷入“系统孤岛”“数据失真”“流程低效”等困境。…