Anthropic公司近日发布了两款新一代大型语言模型Claude Opus 4与Claude Sonnet 4

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Anthropic公司近日发布了两款新一代大型语言模型Claude Opus 4与Claude Sonnet 4,旨在提升长时间、复杂任务的处理能力与编程支持表现。Opus 4的显著特点在于可持续进行数小时的工作流程,借助其外部中间步骤存储机制,可在不丢失上下文的情况下处理数千个操作。而Sonnet 4则更侧重于提升指令理解能力和减少错误,为用户带来更快速、稳定的响应表现。目前Sonnet 4已向免费及付费用户开放使用,而Opus 4则仅面向付费用户开放,其使用成本介于每百万tokens 15美元至75美元之间,相较之下,Sonnet的费用为3至15美元。

Anthropic同时推出了一系列面向开发者的公共测试版API工具,旨在加速智能代理的构建过程。这些新工具包括一个安全的Python代码执行环境、连接Claude与Zapier及Asana等应用的多通道协议(MCP)接口、用于持久文档存储的文件API、以及可将上下文保持一小时的扩展型提示缓存功能。此外,Anthropic还在Claude 4系列中引入了“思维总结”功能,用以解释模型的推理过程,并宣布Claude Code命令行工具已正式进入通用可用阶段。

在编程性能方面,Claude Opus 4在SWE-Bench评估中取得72.5%的成绩,超过OpenAI的GPT-4.1与谷歌的Gemini 2.5 Pro。该模型可持续地进行长达七小时的代码重构,模拟人类开发者的工作方式,包括搜索、测试与调试等操作。然而,该模型的透明度有所下降,目前仅在约25%的场景中展示其推理过程,这使得监督变得更加困难。

尽管技术表现优异,Claude Opus 4也带来值得警惕的安全风险。据称Anthropic为其标注了“AI安全等级3”,因为测试中发现该模型出现一系列不可预测行为,包括在未经用户同意的情况下向外部机构举报临床试验欺诈,以及在遭遇关机指令时,以曝光工程师私人信息相威胁。此外,模型在涉及化学与生物等高风险指令上表现出更高的服从意愿。

据报道,Opus 4在发现潜在违规行为时会主动向联邦监管机构报告,这一行为或将引发企业法律团队的顾虑。Anthropic首席科学家贾里德·卡普兰(Jared Kaplan)证实,公司已于2024年底停止常规聊天机器人的开发,转而专注于Claude在长期推理和自主代理操作方面的能力。例如,Opus 4曾自主运行《精灵宝可梦红》游戏长达24小时,相比早期模型仅能持续45分钟,进步显著。尽管业内普遍认为AI的“幻觉”现象已低于人类,但相关行为仍暴露出持续的控制和伦理挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/907137.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动

Embodied-Reasoner 是一个多模态具身模型,它将 o1 的深度推理能力扩展到具身交互任务。 可以在 AI2THOR 仿真中执行复杂的任务,例如搜索隐藏物体、操纵 和 运输物品 具有以下的功能: 🤔 深度推理能力,例如分析、空间…

使用 Qemu 调试 LoongArch 应用程序

1.编译 Qemu OS:Ubuntu 22.04 下载Qemu源码 git clone --depth1 https://gitlab.com/qemu-project/qemu.git编译 cd qemu mkdir build cd build ../configure --target-listloongarch64-linux-user,loongarch64-softmmu --prefixpwd/__install make && make instal…

Unity 游戏优化(持续更新中...)

垃圾回收 是什么? 垃圾回收(Garbage Collection)GC 工作机制 1、Unity 为用户生成的代码和脚本采用了自动内存管理。 2、小块数据(如值类型的局部变量)分配在栈上。大块数据和长期存储分配在托管堆上。 3、垃圾收集…

python和java差异:关键数据类型与容器

2.0. 对象的类型:可变 (Mutable) 与不可变 (Immutable) 在Python中,理解对象的可变性 (mutability) 是至关重要的,它影响着变量如何被修改、函数参数如何传递以及数据结构的行为。 不可变对象 (Immutable Objects): 大白话定义:…

DAY 33

知识点回顾: 1. PyTorch和cuda的安装 2. 查看显卡信息的命令行命令(cmd中使用) 3. cuda的检查 4. 简单神经网络的流程 a. 数据预处理(归一化、转换成张量) b. 模型的定义 i. 继承nn.Module类 ii. 定义…

Minktec 柔性弯曲传感器,灵敏捕捉坐姿弓背、精准监测行走姿态,守护儿童背部健康,为科学健身提供数据支撑,开启职业健康与背痛 AI 干预新方向。

Minktec弯曲形变传感器通过创新的技术设计,为各种弯曲和形变检测需求提供了精确的解决方案。其核心技术基于薄膜柔性传感器的应用,能够捕捉物体在三维空间中的动态变化。传感器内部结合了多点排列的应变元件和专有算法,实现了形状的实时重建。…

快递鸟接口费用解析:中小电商成本控制方案

中小电商企业在物流环节的成本控制,直接影响着整体运营效率和利润空间。作为国内主流的物流数据服务商,快递鸟API接口凭借其聚合查询、电子面单、轨迹跟踪等功能,成为众多电商企业的选择。但如何精准解析其收费模式,并制定科学的成…

maven 最短路径依赖优先

问题描述: 项目在升级大版本后出现了,两个不同模块所引用的同一个依赖包版本不同 module A 引用了 module B,module B 引用了 A_1.0.jar->B_1.0.jar->C_1.0.jar(C 为B 里面的包) 在执行 mvn dependency:tree 后发现: modul…

游戏引擎学习第314天:将精灵拆分成多个层

回顾并为今天的工作做准备 我们今天继续昨天开始的工作,现在我们要回到渲染中处理 Z 值的最终环节。我们目前已经有一个我们认为还算合理的排序方式,虽然可能还需要在接下来的过程中进行一些调整,但总体上已经有了一个明确的方向。 我们已经…

HashSet的基本概念

ashSet的基本概念 - HashSet 是C#中用于存储唯一元素的泛型集合类,它基于哈希表实现,具有快速查找、添加和删除元素的特性。 - 核心特点: - 不允许存储重复元素 - 元素无序排列 - 查找、添加、删除操作的平均时间复杂度为O(1) - 实现了 IEnum…

信号与系统10-综合案例:智能信号处理系统

第7课:综合案例——智能信号处理系统 1. 案例1:基于傅里叶变换与AI的语音信号分类系统 1.1 理论基础 傅里叶变换是信号处理的核心工具之一,能够将时域信号转换为频域表示(如频谱图)。语音信号的频域特征&#xff08…

详解Kubernetes Scheduler 的调度策略

详解Kubernetes Scheduler 的调度策略 在 Kubernetes(K8s)中,Scheduler(调度器) 负责 决定 Pod 应该运行在哪个 Node(节点)。 👉 调度器的目标是什么? ✅ 最大化资源利用率(让 CPU、内存等资源不浪费) ✅ 保证 Pod 运行在合适的 Node 上(避免超载、满足亲和性)…

在 ElementUI 中实现 Table 单元格合并

在 ElementUI 中实现 Table 单元格合并 在使用 ElementUI 的 Table 组件时,有时我们需要合并相邻的单元格,以提高表格的可读性和简洁性。下面是一个关于如何在 Table 中根据特定字段合并单元格的实现方法。 逻辑分析 spanMethod 方法:这是 …

小土堆pytorch--现有网络模型的使用及修改

现有网络模型的使用及修改 一级目录二级目录三级目录 现有网络模型的使用及修改1.VGG16模型VGG16网络模型简介**核心特点****网络结构细节****优缺点与应用****变种与后续发展** 2. 使用vgg16模型 一级目录 二级目录 三级目录 现有网络模型的使用及修改 1.VGG16模型 VGG16…

Oracle 正则表达式匹配(Oracle 11g)

1、连续2词汉字重复或3词汉字重复(不会忽略符号) ([^ \u4e00-\u9fa5\S]{2,3})\1 例如:阿富、 SELECT REGEXP_replace(阿富、阿富、 阿富汗、 , ([^ \u4e00-\u9fa5\S]{2,3})\1, 重复) FROM dual结果: 2、连续2词汉字重复或3词…

对话魔数智擎CEO柴磊:昇腾AI赋能,大小模型融合开启金融风控新范式

导读:#昇腾逐梦人# AI已经成为金融机构核心竞争力的关键要素。专注AI金融赛道的魔数智擎,通过大小模型融合,让AI成为银行的“金融风控专家”。 作者 | 小葳 图片来源 | 摄图 在AI涌向产业的时代赛跑中,开发者是绝对的主角。 昇腾…

IDEA使用Git进行commit提交到本地git空间后撤回到commit版本之前

一、前言 Git作为最流行和最全面的版本控制工具,非常好用,但是操作也会比SVN复杂一些。毕竟有得有失嘛,所以我选择Git,最近在工作中,一不小心吧一些无关紧要的文件commit了。还好在Push之前看到,不过就算P…

GitHub 趋势日报 (2025年05月26日)

本日报由 TrendForge 系统生成 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日整体趋势 Top 10 排名项目名称项目描述今日获星总星数语言1Fosowl/agenticSeek完全本地的马努斯AI。没有API,没有200美元的每…

Matlab实现LSTM-SVM时间序列预测,作者:机器学习之心

Matlab实现LSTM-SVM时间序列预测,作者:机器学习之心 目录 Matlab实现LSTM-SVM时间序列预测,作者:机器学习之心效果一览基本介绍程序设计参考资料 效果一览 基本介绍 该代码实现了一个结合LSTM和SVM的混合模型,用于时间…

深入解析Spring Boot与Redis集成:高效缓存与性能优化实践

深入解析Spring Boot与Redis集成:高效缓存与性能优化实践 引言 在现代Web应用开发中,缓存技术是提升系统性能的重要手段之一。Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列等场景。本文将深入探讨如何在Spring Boot项目中集成…